Christian Boitet - Towards a computer-automated translation (CAT) system capable of ensuring high-quality communication between hundreds of languages of the Web

13:00
Thursday
5
Jan
2017
Organized by: 
L’équipe "Keynotes" du LIG
Speaker: 
Christian Boitet
Teams: 

 

Christian Boitet est venu à Grenoble en 1970 dans le cadre du CNRS pour faire de la recherche en TA au CETA avec le professeur Bernard Vauquois, sur le conseil de deux professeurs prestigieux de l'X, Jean Train et Laurent Schwartz. Il y a fait toutes sa carrière, à part 1 an au Canada, 1 an sur le "projet national TAO en 1985-86, 1 an au Japon en 1992-93, et sans compter de nombreux séjours de recherche d'un à deux mois en Malaisie (1979-2006). Il a été professeur à l'USTMG, puis à l'UJF, de 1977 à 1976, et est depuis septembre 2016 professeur émérite à l'UGA. Il a surtout enseigné l'algorithmique et la programmation, les langages et automates formels, la compilation, la logique, la complexité, la calculabilité et la décidabilité, et bien sûr le traitement des langues naturelles, et sa mise en œuvre pour la "communication langagière". Il s'est intéressé à de très nombreuses langues (et en pratique plusieurs), ainsi qu'à diverses théories linguistiques, et est en particulier coauteur des fameux environnements de construction et d'exploitation de systèmes de TAO, Ariane-78 puis Ariane-G5. Il travaille d'ailleurs sur une nouvelle version, Ariane-Y. Il a encadré jusqu'à soutenance plus de 55 thèses, dont au moins 15 ont apporté des contributions innovantes et très intéressantes au domaine. Il a été et est toujours intéressé, depuis 1977, par les collaborations scientifiques internationales (en particulier avec la Russie, l'Allemagne, le Canada, la Malaisie, la Thaïlande, la Chine, et bien sûr l'Europe). Il a aussi participé à de nombreux projets de "transfert technologique" vers l'industrie, et au montage de 3 "jeunes pousses" (IOLTA et B'Vital avant 1995, AXiMAG depuis 2010). Depuis la thèse de Vincent Berment (2003), il s'intéresse très fortement à l'information des langues "peu dotées", et en particulier à celles dites "de la francophonie"

(The talk will be given in French, with presentation slides in English))

We begin with a brief history, starting from the beginnings with B. Vauquois in 1961, the process moving from classical "analysis" to "heuristic transduction". The experimentation of various approaches (linguistic and computational) led in the 1980s to the idea of a new domain, "lingware engineering", with a semi-formal specification language of string-tree correspondences, and the emergence of the "CxAxQ thesis": one can not have coverage, automaticity and quality at 100%, but one can have 2 of the 3 at 100% if one compromises on the 3rd.

Hence the idea to obtain Q = C = 100% by introducing "interactive disambiguation" in a MT system (LIDIA project), then the idea of "self-explaining document" (DAE), a usual document extended by annotations specifying how to understand each ambiguity identified.
Another way to increase quality is to reduce coverage, by building systems specialized to "sub-languages", and by involving the human at the end, before a learning loop. This will be illustrated with 2 recent PhD theses and 600 pages of teaching material of UGA, "post-edited" into Chinese starting from machine translations, in a very effective way (?10 minutes / page with our specialized system versus 17 with Google).

The problem we face is new: it is about how to handle "all pairs of languages", for almost 320 languages (those already "active on the Web"), of which more than 200 are not yet handled by MT, arriving at a communication of very high quality, or even "with guaranteed meaning". We propose an implementable approach, with very few linguists-contributors, and with speakers-users contributing by translating or post-editing into their language.

The ingredients of the proposed approach are: (1) the passage through a "semantic pivot", the natural choice being a variant of the UNL language of semantic graphs; (2) the limitation of linguistic expertise to what concerns the (often complex) morphology of these languages, both in analysis and in generation; (3) the use of machine learning, and particularly of "deep learning" to build "enconverters" and "deconverters" from parallel corpora obtained by translation, and augmented with an annotation by UNL graphs, themselves produced from a version in a "well endowed" language of these corpora, for which these tools already exist; (4) the introduction, if necessary, of an "interactive disambiguation" step, and the transformation of documents and messages to be clarified and translated into "self-explanatory documents".