Analyse automatisée d’images de bois archéologique

Contexte. Dans le cadre du projet Arch-AI-Story, une collaboration entre la MSI et le CEPAM (équipe  GReNES) a été entamée en Septembre 2021 avec le but d’exploiter les potentialités de l’intelligence artificielle pour l’identification des charbons de bois archéologiques, via images SEM (Microscope Électronique à balayage). Alors qu’à présent cette identification est faite au cas par cas par des experts et continue donc de reposer d’abord sur des connaissances botaniques, des techniques avancées d’apprentissage profond pourraient venir en support aux anthracologues pour :

  • l’identification d’échantillons incomplets ou endommagés,
  • l’identification de spécimens issus de peuplements dont la variabilité intraspécifique est  très élevée,
  • une réduction des temps/ coûts liés à l’identification.

Learning. Dans un contexte de classification supervisée, des approches de Transfert Learning  sont mises en place pour mieux exploiter les capacités des réseaux convolutionnels (CNNs) dans le cadre de jeux de données de petite/moyenne taille. Le but de cette phase étant non seulement celui de fournir aux experts un instrument de support mais aussi d’étendre l’identification à des taxons très diversifiés, il s’avère cruciale d’avoir, en parallèle aux CNNs, des algorithmes d’explication et d’interprétation des résultats. Dans le contexte d’une intelligence artificielle responsable [1], l’interprétation sera réalisée soit à travers des outils externes au réseau, de type gradient-based (par exemple [2]-[3], voir en Figure 1) soit en introduisant des changements d’architecture reposant sur la comparaison avec des prototypes ([4]).

image de charbon de bois
image de charbon de bois

Figure 1 : image de charbon de bois. Originel à gauche (par Elysandre Puech), heatmap superposée à droite (par Marco Corneli), à souligner les régions utilisées par le CNN pour la classification.


Infrastructure : La MSI a financé l'achat d'un serveur HPE équipé d'une carte graphique NVIDIA Quadro RTX 8000. Le serveur est basé au CEPAM et entièrement dédié à ce projet ainsi qu'au stockage d'une base de données de charbons de bois en train d'être collectée par le CEPAM.
 

[1] Rudin, Cynthia. 2019. Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead. Nature Machine Intelligence 1(5):206–15.

[2] Selvaraju, Ramprasaath R., et al. Grad-cam: Visual explanations from deep networks via gradient-based localization. Proceedings of the IEEE international conference on computer vision. 2017.

[3] S. Srinivas and F. Fleuret. Full-Gradient Representation for Neural Network Visualization. In Proceedings of the international conference on Neural Information Processing Systems (NeurIPS), pages 4126–4135, 2019.

[4] Chen, Chaofan, et al. This looks like that: deep learning for interpretable image recognition. Advances in neural information processing systems 32 (2019).