L'intelligence artificielle des textes

Le projet "L'intelligence artificielle des textes" vise à développer de nouvelles techniques d'extraction de passages clef d'un corpus textuel. En combinant des techniques d'analyse statistique du texte, basées sur le calcul de la spécificité des mots, avec de nouveaux outils de deep learning, le but du projet est double. D'un côté, nous envisageons la création et le développement d'algorithmes très performants pour des tâches spécifiques, telles que la classification de textes ou l’attribution d'auteur. D'un autre côté, nous voulons ouvrir la boîte noire de l'apprentissage profond pour mieux comprendre quelles structures linguistiques sont prises en compte par la machine pour accomplir son analyse.

En collaboration étroite avec l'équipe logométrie du laboratoire BCL et ses ingénieurs de recherche, le rôle du DHLab est de développer des techniques statistiques et deep learning innovantes adaptées aux données textuelles massives pour améliorer l'extraction de passages clef. Ces techniques doivent être mises en œuvre et déployées au sein du logiciel d’analyse de données textuelles Hyperbase.

Participants au projet :

Camille Bouzereau (Doctorante, Laboratoire Bases, Corpus et Langage ), Magali Guaresi (Post-Doc, Université Libre de Bruxelles Post-Doctoral fellow), Dominique Longrée (Professeur, Université de Liège), Damon MAYAFFRE, (CR, CNRS), Céline Poudat (MCF, Bases, Corpus et Langage ), Frédéric Précioso (Professeur, Laboratoire I3S), Laurent Vanni, (IR, CNRS), Marco Corneli (Data Scientist, MSI).