Analyse distribuée de données médicales
Analyse distribuée des données médicales est un projet de recherche mené par le Dr Marco Milanesio (Ingénieur en science des données MSI) au sein de l'équipe Epione d'Inria Sophia Antipolis Méditerranée
Le principal inconvénient des frameworks distribués tels que Spark est leur définition du terme "distribué", qui se décline généralement en "distribué localement". Cela signifie que le framework est généralement déployé sur des clusters locaux afin d'exploiter les systèmes de fichiers distribués pour connecter les machines fonctionnant dans le même "cloud". Le paradigme actuel des Big Data est ainsi en cours d’être repensé pour offrir la possibilité d'exploiter des données encore hétérogènes et distribuées mais à une échelle géographique. Cette nouvelle définition soulève de multiples défis, tant du point de vue des algorithmes que de la conception des systèmes.
En collaboration avec le Dr Marco Lorenzi (Equipe Epione), nous étudions actuellement ces sujets, en insistant particulièrement sur la manière de parvenir à un federated learning à grande échelle. Pour ce faire, un certain nombre de défis se posent :
- Ubiquitous computing : comment gérer différents emplacements de données (géographiques) et comment combiner des résultats intermédiaires.
- Transfert de données : ne déplacer que des résultats intermédiaires sélectionnés. Que peut-on déplacer ? À quelle fréquence ?
- Fault tolerance : que se passe-t-il lorsqu'une partie du calcul échoue ? Des mécanismes de récupération doivent être mis en place.