Hesam Amoualian - Scaling Latent Topic-Class Models to Big Data Collections and Streams

08:00
Mardi
12
Déc
2017
Organisé par : 
Hesam Amoualian
Intervenant : 
Hesam Amoualian
Équipes : 

 

Jury :

  • Marie-Francine Moens, professeur à l'Université de KU Leuven , rapporteur
  • Julien Velcin, maitre de conferences (HDR) à l'Université de Lyon 2, rapporteur
  • Wei Lu, professeur assistant à l'Université de Tech et de Design de Singapour, examinateur
  • Eric Gaussier, professeur à l'Université Grenoble Alpes, directeur de thèse
  • Massih-Reza Amini, Professeur à l'Université Grenoble Alpes, co-directeur de thèse
  • Marianne Clausel, professeur associe à l'Université Grenoble Alpes, co-directrice de thèse

Ce travail de thése a pour objectif de s'intéresser à une classe de modèles hiérarchiques bayesiens, appelés topic models, servant à modéliser de grands corpus de documents et ceci en particulier dans le cas où ces documents arrivent séquentiellement. Pour cela, nous introduisons trois nouveaux modèles prenant en compte les dépendances entre les thèmes relatifs à chaque document pour deux documents successifs. Le premier modèle s'avère être une généralisation directe du modèle LDA (Latent Dirichlet Allocation). On utilise une loi de Dirichlet pour prendre en compte l'influence sur un document des paramètres relatifs aux thèmes sous jacents du document précédent. Le deuxième modèle utilise les copules, outil générique servant à modéliser les dépendances entre variables aléatoires. Enfin le dernier modèle est une extension non paramétrique du deuxième. On intègre cette fois ci les copules dans la construction stick-breaking des Processus de Dirichlet Hiérarchique (HDP). Nos expériences numériques, réalisées sur cinq collections standard, mettent en évidence les performances de notre approche, par rapport aux approches existantes dans la littérature comme les dynamic topic models, le temporal LDA et les Evolving Hierarchical Processes, et ceci à la fois sur le plan de la perplexité et en terme de performances lorsqu'on cherche à détecter des thèmes similaires dans des flux de documents. Notre approche, comparée aux autres, se révèle être capable de modéliser un plus grand nombre de situations allant d'une dépendance forte entre les documents à une totale indépendance.
Par ailleurs, l'hypothèse d'échangeabilité sous jacente à tous les topics models du type du LDA amène souvent à estimer des thèmes différents pour des mots relevant pourtant du même segment de phrase ce qui n'est pas cohérent. Nous introduisons le copulaLDA (copLDA), qui généralise le LDA en intégrant la structure du texte dans le modèle of the text et de relaxer l'hypothèse d'indépendance conditionnelle. Pour cela, nous supposons que les groupes de mots dans un texte sont reliés thématiquement entre eux. Nous modélisons cette dépendance avec les copules. Nous montrons de manière empirique l’efficacité du modèle copLDA pour effectuer à la fois des tâches de nature intrinsèque et extrinsèque sur différents corpus accessibles publiquement. Pour compléter le modèle précédent (copLDA), nous présenteun modèle de type LDA qui génère des segments dont les thèmes sont cohérents à l'intérieur de chaque document en faisant de manière simultanée la segmentation des documents et l'affectation des thèmes à chaque mot. La cohérence entre les différents thèmes internes à chaque groupe de mots est assurée grâce aux copules qui relient les thèmes entre eux. De plus ce modèle s'appuie tout à la fois sur des distributions spécifiques pour les thèmes reliés à chaque document et à chaque groupe de mots, ceci permettant de capturer les différents degrés de granularité. Nous montrons que le modèle proposé généralise naturellement plusieurs modèles de type LDA qui ont été introduits pour des tâches similaires.