Platform for automated processing of languages

Platform type: 
LIG teams: 
LIG people: 
Descriptions: 

Système de traduction Ariane-G5/CASH/LIDIA Ariane-G5 est un système de développement et d’exploitation d’applications de traduction automatique développé au sein de l’équipe GETALP. Il tourne sur un serveur IBM z800 sous l’hyperviseur z/VM 5.3.0, qui nécessite un minimum de maintenance (configuration de la machine nouvellement acquise, administration, installation de serveurs Linux sous Debian s390x pour architecture 64 bits).

Ariane-G5 est constitué de 5 langages spécialisés pour la programmation linguistique (ATEF, ROBRA, EXPANS/TRANSF, SYGMOR, TRACOMPL), d’un moniteur (MONIT) pour le développement et l’exploitation de systèmes de traduction automatique ou automatisée (possibilité d’inclure une phase de désambiguïsation interactive), et d’un environnement réseau (Ariane/CASH-LIDIA) permettant le développement et l’exploitation à distance de systèmes de TA ou de parties de tels systèmes (par exemple, uniquement de l’analyse, ou bien de la “déconversion” à partir de graphes UNL, réalisée par une étape de transfert suivie d’une étape de génération).

Le maintien en activité d’Ariane-G5 est justifié par le fait qu‘il est bien plus complet que l’environnement Héloïse présenté plus bas, que le traitement des erreurs par les compilateurs des “linguiciels” est bien plus précis et “aidant”, et qu’il offre des modes d’exécution interactive. On peut aussi mentionner le fait qu’il est intégralement bilingue (messages en français ou en anglais).

Système de traduction Ariane-Y (en cours de développement) Le projet Ariane-Y vise à une réécriture complète, portable, étendue et unifiée d’Ariane-G5. Il s’agit d’un véritable AGL pour le TAL, compatible de façon ascendante avec Ariane-G5 afin d’en récupérer les nombreuses applications existantes, supprimant toutes les limites d’implémentation, et offrant un certain nombre de nouvelles possibilités.

En particulier, les textes entrés dans le système pourront être des fichiers html ou xml, supposés toujours en UTF-8, contenant soit les chaînes de caractères usuelles formant la “partie textuelle” (phrases, paragraphes, titres, notes en bas de page, etc.), soit une représentation de ces chaînes, obtenue par un prétraitement extérieur de segmentation et de normalisation. Par exemple, un texte chinois ou japonais pourra être entré comme un “graphe de segmentation”.

Actuellement les langages spécialisés TRACOMPL et EXPANS/TRANSF ont été réimplémentés. Le langage ATEF a été totalement re-spécifié (document de 110 pages) en ATEF-Y par Ch. Boitet, et son implémentation devrait être terminée en mars-avril. L’architecture client- serveur et les deux moniteurs sont réalisés (par J.C. Durand) à plus de 60ROBRA et de SYGMOR devrait aller beaucoup plus vite, car aucune extension importante n’est prévue. Le but est de l’achever à l’automne 2014.

D’autre part, un sous-groupe (Ch. Boitet, H.T. Nguyen, D. Cattaneo et J.C. Durand) a réalisé une réimplémentation du langage SysQ (systèmes-Q) d’Alain Colmerauer, qui permet d’écrire des systèmes de TA d’excellente qualité (cf. le système METEO pour les bulletins météo au Canada et aux Jeux d’Atlanta) pour des “sous-langages” restreints. Ariane-Y contiendra donc plus de langages spécialisés qu’Ariane-G5.

HELOISE - un serveur WEB pour les applications écrites en Ariane-Heloise Cette plate- forme permet le portage, le développement et la réalisation des tests de toute application de traduction automatique écrite en Ariane (actuellement Ariane-G5 et ultérieurement Ariane-Y). Elle permet également de réaliser le passage à l’échelle des modèles de TA , n’imposant pas de limite quant à la taille des données et des programmes. En ce qui concerne l’analyse de l’allemand, elle est accessible à deux adresses différentes, l’une pour le développement du modèle linguistique et l’autre pour les démonstrations, et qui sont respectivement :

  • http://www.taranis-software.com/Heloise/AnaALD/Heloise.php
  • http://www.taranis-software.com/Heloise/AnaALDDemo/Heloise.php

La plate-forme est utilisée actuellement principalement pour développer un analyseur morphologique très couvrant, très exact et très avancé d’énoncés allemands. En 2008, dans le cadre du projet ANR OMNIA, où il s’agissait de pouvoir faire de la recherche d’information translingue sur des collections d’images, nous avions constaté qu’il n’y avait pas d’analyseur morphologique de l’allemand de bonne qualité, libre de droits et assez couvrant, qui permette de traiter (lemmatiser et calculer les “variables morphosyntaxiques”) les textes allemands. Nous avons alors, dans le cadre du projet ANR TRAOUIERO (opérationnalisation de logiciels, ressources et linguiciels de TA développés au GETA puis au GETALP, 2011-2013), entrepris la réalisation d’un analyseur morphologique étendu de l’allemand traitant les formes verbales à particule séparée.

Au mois de juin 2013, notre analyseur morphologique augmenté de l’allemand était un linguiciel de 157 560 lignes, avec des dictionnaires comportant 88503 substantifs, 11493 verbes (dont 6219 avec particule séparable) et 7123 adjoints (adjectifs ou adverbes).