Reconnaissance des Écritures Imprimées et Manuscrites des Documents Chinois Anciens : Le Projet de recherche Numerica Sinologica
- Culture scientifique
- Recherche
- IDEX UCAJedi
le 21 juillet 2023
Frédéric Constant, professeur des universités en histoire du droit à Université Côte d’Azur, présente les problématiques abordées par le projet de recherche Numerica Sinologica et le rôle joué par la puissance de calcul d’Azzurra ainsi que par l’expertise du personnel dédié.
Ces dernières décennies, de nombreuses bibliothèques et institutions patrimoniales de par le monde ont numérisé et diffusé leurs collections, de telle sorte que les historiens disposent de grandes quantités d’informations restant encore à exploiter. La conversion de ces images en texte permet de développer des outils d’analyses performants, d’autant plus indispensables lorsque les masses de données à traiter sont conséquentes. Si les techniques de reconnaissance optique de caractères (OCR) sont relativement performantes pour les imprimés modernes, la reconnaissance des imprimés anciens ou des écritures manuscrites (HTR “Handwritten text recognition”) nécessite de développer des modèles spécifiques. Récemment, le domaine a connu des progrès importants en s’appuyant sur l’apprentissage profond et les réseaux de neurones. Le projet Numerica Sinologica vise à développer des modèles OCR et HTR spécifiques aux sources historiques chinoises, en nous appuyant sur le logiciel open source kraken adossé à la plateforme eScriptorium, qui constitue un environnement ayant déjà fait ses preuves pour les écritures manuscrites latines ou encore hébraïques.
L’écriture chinoise possède des caractéristiques propres qui ont nécessité d’adapter les outils existants. La disposition verticale des lignes d’écritures pose ainsi des problèmes spécifiques de reconnaissance des lignes de texte (image du milieu, photo 1). Le chinois classique est par ailleurs composé de plus de 30 000 sinogrammes, dont certains n’apparaissent qu’à travers quelques occurrences, comparé à une centaine pour les langues alphabétiques.
Nous avons entraîné un premier modèle kraken à partir des données de la Collection Impériale des Quatre dépôts (photo 2), vaste corpus d’ouvrages compilé sur l’ordre de l’empereur Qianlong au 18ème siècle, pour lequel nous disposons à la fois de transcriptions et d’images. La collection contient en tout 3461 ouvrages, pour un total de plus de 2 millions de pages et 800 millions de caractères.
Notre premier modèle kraken, entraîné sur environ deux millions de lignes, permet de couvrir la quasi-totalité des sinogrammes existants, soit l’ensemble des caractères communément utilisés.
L’étape suivante de notre travail consiste à entraîner de nouveaux modèles sur une très grande diversité d’écritures afin de les rendre aptes non seulement à reconnaître une large palette de caractères, mais aussi un grand nombre de styles d’écritures, condition indispensable à la reconnaissance des écritures manuscrites.
L’entraînement de modèles nécessite une grande puissance de calcul que seuls des centres de calculs tels Azzurra sont en mesure de fournir aux équipes de chercheurs. Les modèles génériques sont entraînés sur un autre serveur, celui de l’IN2P3, adossé à l’Institut national de physique nucléaire et de physique des particules, à l’appui duquel d’autres membres du projet travaillent. J’utilise pour ma part les ressources d’Azzurra pour entraîner des modèles spécifiques à certains corpus, et pour réaliser des tests de paramètres ou de données.
Azzurra m'offre un environnement de travail performant et de proximité. Venant des sciences humaines et sociales et sans disposer de compétences en informatique poussées, j'ai pu bénéficier de l'assistance régulière de Maeva Antoine (Ingénieure MSI), responsable des moyens de calcul HPC, qui rend possible l'usage du centre de calcul à des laboratoires ne disposant pas nécessairement de ressources internes dédiées.