Ritesh Shah - SUFT-1, un système pour aider à comprendre les tweets spontanés multilingues et à commutation de code en langues étrangères : expérimentation et évaluation sur les tweets indiens et japonais

12:00

Vendredi

Oct

2017

Soutenance de thèse

Lieu :

Salle de séminaire 2 - RDC bâtiment IMAG

Organisé par :

Ritesh Shah

Intervenant :

Ritesh Shah

Équipes :

GETALP

Composition du jury :

Georges Antoniadis - Professeur - Université Grenoble-Alpes - Président
Patrick Paroubek - Ingénieur de Recherche - LIMSI-CNRS - Rapporteur
Mathieu Lafourcade - Maître de Conférences - Université Montpellier 2 - Rapporteur
Violaine Prince - Professeur - Université Montpellier 2 - Examinateur
Clément Levallois - Maître de Conférences - EM-Lyon - Examinateur
Christian Boitet - Professeur Emérite - Université Grenoble-Alpes - Directeur de thèse
Pushpak Bhattacharyya - Professeur - IIT Bombay and IIT Patna - Co-directeur de thèse
Mathieu Mangeot - Maître de Conférences - Université Savoie Mont Blanc - Co-encadrant de thèse

Alors que Twitter évolue vers un outil omniprésent de diffusion de l'information, la compréhension des tweets en langues étrangères devient un problème important et difficile. En raison de la nature intrinsèquement à commutation de code, discrète et bruitée des tweets, la traduction automatique (MT) à l'état de l'art n'est pas une option viable (Farzindar & Inkpen, 2015). En effet, au moins pour le hindi et le japonais, nous observons que le pourcentage de tweets « compréhensibles » passe de 80% pour les locuteurs natifs à moins de 30% pour les lecteurs en langue cible (anglais ou français) utilisant GOOGLE TRANSLATE ou YANDEX. Notre hypothèse de départ est qu'il devrait être possible de créer des outils génériques, permettant aux étrangers de comprendre au moins 70% des « tweets locaux », en utilisant une interface polyvalente de « lecture active » (LA, AR en anglais) tout en déterminant simultanément le pourcentage de tweets compréhensibles en-dessous duquel un tel système serait jugé inutile par les utilisateurs prévus.
Nous avons donc spécifié un « SUFT » (système d'aide à la compréhension des tweets étrangers) générique, et mis en œuvre SUFT-1, un système interactif à mise en page multiple basé sur la LA, et facilement configurable en ajoutant des dictionnaires, des modules morphologiques et des plugins de TA. Il est capable d'accéder à plusieurs dictionnaires pour chaque langue source et fournit une interface d'évaluation. Pour les évaluations, nous introduisons une mesure liée à la tâche induisant un coût négligeable, et une méthodologie visant à permettre une « évaluation continue sur des données ouvertes », par opposition aux mesures classiques basées sur des jeux de test liés à des ensembles d'apprentissage fermés. Nous proposons de combiner le taux de compréhensibilité et le temps de décision de compréhensibilité comme une mesure de qualité à deux volets, subjectif et objectif, et de vérifier expérimentalement qu'une présentation de type lecture active, basée sur un dictionnaire, peut effectivement aider à comprendre les tweets mieux que les systèmes de TA disponibles.
En plus de rassembler diverses ressources lexicales, nous avons construit une grande ressource de "formes de mots" apparaissant dans les tweets indiens, avec leurs analyses morphologiques (163221 formes de mots hindi dérivées de 68788 lemmes et 72312 formes de mots marathi dérivées de 6026 lemmes) pour créer un analyseur morphologique multilingue spécialisé pour les tweets, capable de gérer des tweets à commutation de code, de calculer des traits unifiés, et de présenter un tweet en lui attachant un graphe de LA à partir duquel des lecteurs étrangers peuvent extraire intuitivement une signification plausible, s'il y en a une.

Aximag

Langues

Menu principal

Évènements

Éditorial

Ritesh Shah - SUFT-1, un système pour aider à comprendre les tweets spontanés multilingues et à commutation de code en langues étrangères : expérimentation et évaluation sur les tweets indiens et japonais

Formulaire de recherche

Aximag

Langues

Vous êtes ici

Menu principal

Évènements

Éditorial

Ritesh Shah - SUFT-1, un système pour aider à comprendre les tweets spontanés multilingues et à commutation de code en langues étrangères : expérimentation et évaluation sur les tweets indiens et japonais