Présentation

Présentation de l’école thématique BDA 2020

L’école thématique CNRS MDD « Masses de données distribuées » est une école thématique récurrente ayant lieu tous les deux ans depuis 2010. Cette école est une émanation de la communauté des bases de données en France, structurée autour de la conférence BDA : Gestion de données – principes et applications, qui a fêté ses 30 ans d’existence en 2016. Si notre conférence est le lieu de rencontre de notre communauté, l’école thématique MDD permet d’exposer en détails des thèmes fondamentaux pour la compréhension de l’évolution de notre domaine de recherche, et de préparer les doctorant(e)s à suivre – et provoquer – ses évolutions.

À ce titre, la communauté de la gestion de données constitue un pilier nécessaire au développement continu de la révolution des méga-données (big data). Cette révolution, rendue possible par la croissance et la démocratisation des capacités de stockage et de calcul, n’en est qu’à ses débuts : de plus en plus de données sont rendues disponibles, et leur analyse statistique massive permet progressivement d’en tirer des connaissances et de prendre des décisions utiles pour la société. Cependant, le coût d’analyse, de maintien et de sécurisation de ces données ne cesse d’augmenter, en raison d’un manque d’analystes de données formés à ces techniques, de la difficulté d’organiser entre eux des processus de traitement de données massives, hétérogènes et provenant de plusieurs sources, et du manque de sécurisation généralisé des logiciels supports. L’enjeu de notre école thématique est donc de former les chercheurs de notre communauté, en particulier nos doctorant(e)s, aux défis spécifiques liés aux méga-données, en particulier scientifiques (gestion, interrogation et analyse efficace, pérennisation des processus de traitement, sécurisation).

L’école MDD s’est attachée lors des cinq premières sessions à aborder des thèmes liés à ces défis. La première session (2010), a ainsi traité des systèmes distribués de gestion de données et du Web sémantique ; la seconde session (2012) s’est consacrée aux opérateurs de traitement de requêtes à l’échelle du Pétaoctet, aux nouvelles sources d’information (réseaux sociaux), à l’intégration de données issues d’environnement indépendants ; la session de 2014 a été dédiée à la visualisation analytique de données, à la qualité des données et au crowdsourcing ; la session de 2016 a porté sur les processus intégrés d’analyse de données massives respectueux de la vie privée. En 2018, la session a traité du « Scalable Data Analytics » avec les moyens d’analyser les données à large échelle. La session de 2020 a malheureusement été suspendue durant la pandémie et reportée à 2022.

Thèmes abordés cette année

Notre école thématique souhaite éclairer ces différents enjeux au moyen des méthodes issues de la gestion de données. 4 thèmes seront donc abordés pour élargir la palette de connaissances :

Cours et ateliers

  • Gestion de données hétérogènes revisitée : Des médiateurs aux polystores modernes
  • Blockchain du point de vue de la distribution et des bases de données
  • Comment conduire ses expériences pour valider un travail de recherche
  • Augmenter la gestion des données avec l’IA et l’apprentissage automatique

Interactions

  • Tutoriel de 3h sur un sujet précis assuré par des experts du domaine
  • Ateliers pratiques hands-on pour accompagner les sessions théoriques
  • Décontraction, des échanges, … de l’aventure
Haut