Marwa Hadj Salah - Désambiguïsation lexicale de l'arabe pour et par la traduction automatique

08:00

Mardi

Déc

2018

Soutenance de thèse

Intervenant :

Marwa Hadj Salah

Équipes :

GETALP

Mots clés :

Désambiguïsation lexicale
Traduction automatique
Portage des annotations
Enrichissement de corpus

Lieu de soutenance :

Institut d'administration des entreprises de Grenoble (IAE)
525 Avenue Centrale, 38400 Saint-Martin-d'Hères
Salle 120

Jury :

Herve Blanchon, maitre de conferences, Universite Grenoble Alpes, directeur de thèse
Mounir Zrigui, professeur, Université de Monastir - Tunisie, directeur de thèse
Didier Schwab, maitre de conferences, Universite Grenoble Alpes, examinateur
Patrick Paroubek, ingenieur de recherche, CNRS Ile-De France Gif-Sur-Yvette, rapporteur
Mohamed Jemni, professeur, Université de Tunis - Tunisie, rapporteur
Kamel Smaili, professeur, Université de LorrainE, examinateur

Nous abordons dans cette thèse une étude sur la tâche de la désambiguïsation lexicale qui est une tâche centrale pour le traitement automatique des langues, et qui peut améliorer plusieurs applications telles que la traduction automatique ou l'extraction d'informations. Les recherches en désambiguïsation lexicale concernent principalement l'anglais, car la majorité des autres langues manque d'une référence lexicale standard pour l'annotation des corpus, et manque aussi de corpus annotés en sens pour l'évaluation, et plus important pour la construction des systèmes de désambiguïsation lexicale. En anglais, la base de données lexicale wordnet est une norme de-facto de longue date utilisée dans la plupart des corpus annotés et dans la plupart des campagnes d'évaluation.
Notre contribution porte sur plusieurs axes: dans un premier temps, nous présentons une méthode pour la création automatique de corpus annotés en sens pour n'importe quelle langue, en tirant parti de la grande quantité de corpus anglais annotés en sens wordnet, et en utilisant un système de traduction automatique. Cette méthode est appliquée sur la langue arabe et est évaluée sur le seul corpus arabe, qui à notre connaissance, soit annoté manuellement en sens wordnet: l'OntoNotes 5.0 arabe que nous avons enrichi semi-automatiquement. Son évaluation est réalisée grâce à la mise en œuvre de deux systèmes supervisés (SVM, LSTM) qui sont entraînés sur les corpus produits avec notre méthode.
Grâce ce travail, nous proposons ainsi une base de référence solide pour l'évaluation des futurs systèmes de désambiguïsation lexicale de l’arabe, en plus des corpus arabes annotés en sens que nous fournissons en tant que ressource librement disponible.
Dans un second temps, nous proposons une évaluation in vivo de notre système de désambiguïsation de l’arabe en mesurant sa contribution à la performance de la tâche de traduction automatique.

Aximag

Langues

Menu principal

Évènements

Éditorial

Marwa Hadj Salah - Désambiguïsation lexicale de l'arabe pour et par la traduction automatique

Formulaire de recherche

Aximag

Langues

Vous êtes ici

Menu principal

Évènements

Éditorial

Marwa Hadj Salah - Désambiguïsation lexicale de l'arabe pour et par la traduction automatique