Fatiha Sadat - Traduction automatique statistique depuis une langue à morphologie riche vers le Français

13:00
Mercredi
11
Mar
2015
Organisé par : 
Laurent Besacier
Intervenant : 
Fatiha Sadat
Équipes : 

 

Fatiha Sadat est actuellement professeure agrégée au département d'informatique à l'université du Québec à Montréal (UQAM), Montréal, QC, Canada. Ses Activités de recherche s'inscrivent dans le domaine de Traitement Automatique des Langues (TAL/TALN). En particulier, elle s'intéresse aux axes suivants: traduction automatique, langues peu dotées, variantes de langues et variétés dialectales, recherche d'information translingue et multilingue, ontologies lexicales, analyse des médias sociaux pour l’extraction de l’information et le développement d’outils et applications, construction automatique de ressources linguistiques en particulier pour les langues peu dotées, etc. Par le passé, Fatiha Sadat a été chercheure au Conseil National de Recherche Canada (CNRC), où elle a contribué au programme GALE financé par DARPA. Ses études postdoctorales ont été effectuées au National Institute of Informatics à Tokyo avec un financement de la JSPS (Japan Society for the Promotion of Science). Son Doctorat et sa Maîtrise en informatique ont été complétés à l'Institut des Science et Technologie (NAIST) au Japon en septembre 2003 et en septembre 2000, respectivement.

Dans cet exposé, Je présenterai un résumé de mes travaux de recherche les plus récents sur le Traitement Automatique du Langage Naturel (TALN).

Je présenterai une étude sur la traduction automatique statistique basée sur les syntagmes, pour la paire de langues arabe-français en utilisant le décodeur Moses ainsi que d’autres outils de base.

Les propriétés morphologiques et syntaxiques de la langue arabe sont complexes, ce qui rend cette langue difficile à maîtriser dans le domaine du TALN. Aussi, les performances d’un système de traduction statistique dépendent considérablement de la quantité et de la qualité des corpus d’apprentissage. Dans cet exposé, je montrerai qu’un prétraitement linguistique basé sur les mots de la langue source (arabe) et l’introduction de quelques règles linguistiques par rapport à la syntaxe de la langue cible (français), permet d’obtenir des améliorations du score BLEU. Cette amélioration est réalisée sans augmenter la quantité des corpus d’apprentissage.