Mohannad Almasri - Réduire la probabilité de disparité des termes en exploitant leurs relations sémantiques

08:00
Mardi
27
Juin
2017
Lieu : 
Organisé par : 
Mohannad Almasri
Intervenant : 
Mohannad Almasri
Équipes : 

Membres du jury :

  • Patrice Bellot, professeur, Université Aix-Marseille, rapporteur
  • Mohand Boughanem, professeur, Université Paul Sabatier, rapporteur
  • Sylvie Calabretto, professeur, Institut National des Sciences Appliquées (INSA) de Lyon, examinatrice
  • Marie Christine Rousset, professeur, Université Grenoble Alpes, examinatrice
  • Catherine Berrut, professeur,  Université Grenoble Alpes, co-directrice de thèse
  • Jean-Pierre Chevallet, maître de conférences (HDR), Université Grenoble Alpes, directeur de thèse

 

Les systèmes de recherche d’information  utilisent généralement une multitude de fonctionnalités pour classer les documents. Néanmoins, un élément reste essentiel pour le classement, qui est les modèles standards de recherche d’information. Cette thèse aborde une limitation fondamentale des modèles de recherche d’information, à savoir le problème de la disparité des termes <Term Mismatch Problem>, qui se produit lorsque les termes de la requête n'apparaissent pas dans les documents  pertinents pour la requête. Le problème de la disparité des termes est un problème de longue date dans la recherche d'informations. Cependant, le problème de la récurrence de la disparité des termes n'a pas bien été défini dans la recherche d'information, son importance, et à quel point cela affecterai les résultats de la recherche. Cette thèse tente de répondre aux problèmes présentés ci-dessus, et ainsi propose des solutions afin de les traiter. Nos travaux de recherche sont rendus possibles par la définition formelle de la probabilité de la disparité des termes. Dans cette thèse, la disparité des termes est définie comme étant la probabilité d'un terme ne figurant pas dans un document pertinent pour la requête. La définition de la disparité des termes dépend du document et de la requête. Cependant, nous identifions que la probabilité de la disparité des termes pourrait être réduite sur deux niveaux à savoir; au niveau du document et au niveau de la requête. De ce fait, cette thèse propose des approches pour réduire la probabilité de la disparité des termes sur ces deux derniers niveaux. De plus, nous confortons nos proposions par une analyse quantitative de la probabilité de la disparité des termes qui décrit de quelle manière les approches proposées permettent de réduire la probabilité de la disparité des termes tout en conservant les performances du système. Une composante essentielle pour réduire la disparité des termes est l'utilisation d'une ressource qui définit les termes et leurs relations. Diverses ressources sont exploitées dans nos propositions, afin d’apporter des modifications efficaces sur les documents ou les requêtes.