Théo Trouillon - Modèles d'Embeddings à Valeurs Complexes pour les Graphes de Connaissances

12:30
Vendredi
29
Sep
2017
Organisé par : 
Théo Trouillon
Intervenant : 
Théo Trouillon

 

Jury :

  • M. Yves Grandvalet, directeur de recherche CNRS, rapporteur
  • M. Volker Tresp, professeur à l'Université Louis-et-Maximilien de Munich, rapporteur
  • M. Andrew McCallum, professeur à l'Université du Massachusetts de Amherst, examinateur
  • M. Mohamed Nadif, professeur à l'Université Paris-Descartes, examinateur
  • M. Éric Gaussier, professeur à l'Université Grenoble Alpes, directeur de thèse
  • M. Christopher Dance, Research Fellow à Naver Labs Europe, co-encadrant de thèse

L’explosion de données relationnelles disponibles sous la forme de graphes de connaissances a permis le développement de multiples applications, dont les agents personnels automatisés,  les systèmes de recommandation et l’amélioration des résultats de recherche en ligne. La grande taille et l’incomplétude de ces bases de données nécessite le développement de méthodes de complétion automatiques pour rendre ces applications viables. La complétion de graphes de connaissances, aussi appelée prédiction de liens, se doit de comprendre automatiquement la structure de larges graphes de connaissances (graphes dirigés labellisés) pour prédire les entrées manquantes (les arêtes labellisées). Une approche populaire consiste à représenter un graphe de connaissances comme un tenseur d’ordre 3, et à utiliser des méthodes de décomposition de tenseur pour prédire leurs entrées manquantes.
Les modèles de factorisation existants proposent différents compromis entre leur expressivité,  leur complexité en temps et en espace, et leurs capacités de généralisation. Nous proposons un nouveau modèle appelé ComplEx, pour Complex Embeddings, pour réconcilier expressivité, complexité et généralisation par l’utilisation d’une factorisation en nombre complexes. Nous corroborons notre approche théoriquement en montrant que tous les graphes de connaissances possibles peuvent être exactement décomposés par le modèle proposé. Notre approche, basée sur des embeddings complexes reste simple, car n’impliquant qu’un produit trilinéaire complexe, là où d’autres méthodes recourent à des fonctions de composition de plus en plus sophistiquées pour accroître leur expressivité. Le modèle proposé ayant une complexité linéaire en temps et en espace est passable à l’échelle, tout en dépassant les scores de prédiction des approches existantes sur les jeux de données de référence pour la prédiction de liens.