Aller au contenu Aller au menu Aller à la recherche

Des données comme s'il en pleuvait...

accès rapides, services personnalisés

Rechercher

Recherche détaillée

Des données comme s'il en pleuvait...

Le déluge des données, communément appelé Big Data, qui s’est déversé sur le monde scientifique, le tissu socio-économique et la société civile toute entière a conduit très rapidement les systèmes et technologies classiques de gestion et d’analyse de données à la saturation. Bernd Amann, professeur UPMC au laboratoire d’informatique LIP6 (UPMC/CNRS), s'intéresse aux nouveaux usages que ces données génèrent tout en proposant des outils performants pour un accès plus rapide et des transactions plus efficaces et à plus large échelle.

 

Et si nous commencions par le début ? Qu’est-ce qu’une base de données ? Où en trouve-t-on ?

Bernd Amann. C’est une collection de données structurées sur des entités (objets, individus…) et des relations dans un contexte applicatif particulier. On en trouve partout, sur la Toile (sites web, Facebook, twitter), dans les milieux financiers (gestion de comptes, transactions financières), dans le tissu économique (e-commerce, services de ventes/achats, publicité en ligne), dans le monde industriel (gestion de centrales nucléaires, chaînes de production), dans les transports (réservation de billets, gestion du trafic), dans le milieu scientifique (expérimentation), dans le service public (impôts, police, open-data).

 

Vous dirigez le département « Données et APprentissage Artificiel » (DAPA) du LIP6. Vous vous intéressez donc à des traitements de données sous toutes leurs formes.

B. A. Le département DAPA est composé de quatre équipes et nous étudions des applications qui produisent et exploitent des informations et des connaissances complexes (médias sociaux, Internet, sciences, e-commerce, internet des objets…). Le spectre des compétences du département DAPA est très large. Il va des bases de données pour traiter des grands volumes de données, l’apprentissage statistique et symbolique pour produire des modèles de classification et des connaissances, jusqu’à l’intelligence artificielle pour raisonner sur ces connaissances, en passant par la recherche d’information et les moteurs de recherche, la représentation des connaissances et le raisonnement, l’intelligence computationnelle, les sciences cognitives et les humanités numériques.

 

Vos travaux trouvent leurs applications dans l’analyse et la veille de réseaux sociaux, les flux d’actualités, le transport intelligent et la mobilité et l’économie d’énergie. Quel est le point commun à toutes ces applications ?

B. A. Les utilisateurs de notre monde connecté sont de plus en plus confrontés à une surcharge d’information provoquée par l’apparition de ressources d’informations de plus en plus complexes et dynamiques comme les sites d’actualités, les médias sociaux et l’Internet des objets. Il faut pouvoir fournir aux utilisateurs des nouveaux outils d’analyse et de personnalisation pour maîtriser ces flux d’informations. Une approche consiste à combiner les technologies et standards existants et largement utilisés par les applications avec des nouvelles méthodes théoriques et pratiques d’accès et d’analyse de flux de données et de graphes.

 

Justement, ce flux astronomique de données pose des problèmes de collecte, d’archivage, d’accès et d’analyse de données. Jusqu’où irons-nous ?

B. A. Le traitement et l’analyse de données massives (Big Data) est en pleine expansion depuis une dizaine d’années. Un des enjeux est d’améliorer la qualité (complétude, cohérence, précision) des résultats malgré la limitation des ressources (bande passante, stockage…). Ceci pose de nombreux défis scientifiques allant de l’optimisation de requêtes dans les bases de données, l’apprentissage de représentations, le raisonnement avec des connaissances incomplètes jusqu’à l’épistémologie computationnelle.On observe actuellement l‘émergence d’un nouveau domaine interdisciplinaire autour des sciences des données qui réunit des scientifiques de différentes disciplines pour répondre à des questions complexes grâce aux données déjà disponibles.

 

Comment s’effectue le passage à large échelle des modifications de données ?

B. A. Dans l’équipe Bases de Données on s’intéresse aussi à des problèmes de modifications de données massives dans le cas des applications réparties à large échelle. Dans le « nuage des données » (data cloud), un nombre important d’utilisateurs doit pouvoir accéder de façon simultanée à des données. Or, la modification d’une donnée répliquée nécessite une synchronisation automatique des répliques pour en garantir la cohérence, ce qui ralentit l’accès même aux données. Les travaux de l’équipe Bases de Données visent à offrir un compromis optimal entre cohérence et performance et adapté à la gestion des transactions en fonction du contexte applicatif.

 

Vous êtes co-responsable de la spécialité « Données, Apprentissage, Connaissances » (DAC) du Master d'informatique à l’UPMC. Qu’enseignez-vous à vos étudiants dans cette spécialité ?

B. A. La spécialité DAC vise à former des étudiants dans le domaine du Big Data et des sciences de données. Il réunit principalement des enseignants-chercheurs du département DAPA qui apportent leur expérience scientifique et technique dans les domaines cités plus haut. Le métier de « scientifique de données » (Data Scientist) est en pleine expansion et nos étudiants n’ont aucune difficulté de trouver du travail dans le monde industriel et en R&D. Un tiers de nos étudiants continue en thèse.

Pour en savoir plus :

Laboratoire d’informatique de Paris (LIP6, UPMC/CNRS)Nouvelle fenêtre

 

Département DAPANouvelle fenêtre

 

Master DACNouvelle fenêtre



14/01/16