Collective learning : l’union fait la force pour contrer les Gafa

Comment contrecarrer les géants numériques américains dans l’IA ? Les Gafam et autres Natu (pour Netflix, Airbnb, Tesla et Uber) agrègent les informations de milliards d’utilisateurs : parcours digitaux, préférences d’achat, géolocalisation… Ils constituent ainsi de gigantesques data set d’apprentissage machine qui leur permettent de bâtir des IA robustes couvrant leurs enjeux clés : recommandation de produits, ciblage promotionnel, optimisation de la fabrication, de la logistique, des prix… jusqu’à la définition de leurs stratégies de R&D grâce aux modèles prédictifs. Face à ces mastodontes, l’Union européenne fait pâle figure. Avec des marchés qui restent propres à chacun de ses 27 pays malgré une volonté reconnue d’homogénéisation, son découpage ne permet pas de faire émerger une entreprise capable d’atteindre la masse critique et le volume de connaissances nécessaires pour concurrencer ces acteurs. Depuis quelques mois, une solution commence néanmoins à émerger : le collective learning.

Gaia-X, porte-drapeau

En Europe, Gaia-X est la première initiative de collective learning visant à proposer une alternative crédible aux géants du numérique américains. Avec pour objectif d’aboutir à un écosystème souverain d’offres cloud intégrées, ce consortium, qui compte à ce jour 212 membres, se donne aussi pour mission de propulser des plateformes sectorielles de fédération de données. Basées sur une architecture standardisée (voir schéma), elles doivent dynamiser les synergies entre domaines d’activité et, in fine, favoriser l’émergence de nouveaux services qui pourront évidemment s’adosser à l’IA. Séduit par l’approche, des Français issus de plusieurs secteurs ont rejoint Gaia-X, chacun porté par un ou plusieurs acteurs. C’est le cas dans la finance et l’assurance (avec la Caisse des dépôts et consignation), dans l’énergie (EDF), dans la mobilité (Amadeus et Air France KLM), dans le spatial et les données satellitaires (Dassault Systèmes, EBRC), dans l’aérospatial (Airbus, Thales Alenia Space), dans le green (Engie), dans l’agriculture (Association générale des producteurs de blé) ou encore dans la santé (avec le Health Data Hub). 

Architecture des data space sectoriels du projet Gaya-X. © Gaya-X

“Le collective learning n’est pas nouveau. Les e-commerçants du Nord de la France, au premier rang desquels La Redoute et les 3 Suisses, partagent depuis des années des données marketing en vue d’alimenter leurs algorithmes de ciblage”, commente Didier Gaultier, directeur data science & IA au sein de l’ESN Business & Decision, filiale d’Orange. Fondé en 2006 par Didier Farge, serial-entrepreneur et ex-DoubleClick, le français Conexance a très vite senti le filon. Cette société lilloise propose aux e-marchands de partager leurs données digitales de manière anonymisée en vue d’optimiser leurs actions de cross-selling, d’up-selling et plus globalement de recommandations de produits. La solution sous-jacente s’articule sans surprise autour d’un moteur de machine learning prédictif. Le spécialiste historique du reciblage publicitaire Criteo s’inscrit dans la même logique. Fédérant les données de dizaines de milliers d’entreprises, le groupe d’origine française, désormais coté au Nasdaq, a ouvert à Paris en 2018 un laboratoire de recherche sur l’IA appliquée à la publicité, avec un budget de 20 millions d’euros.

Des IA beaucoup plus efficaces

Rimant avec machine learning, le collective learning offre des avantages indéniables en la matière. “En accroissant le volume de data pertinentes disponible pour l’entraînement, il permet d’augmenter la complexité du modèle d’apprentissage et donc sa robustesse (c’est-à-dire sa capacité de généralisation à de nouvelles informations, ndlr). La précision des résultats s’en trouve mécaniquement optimisée”, résume Didier Gaultier.

“D’un taux de précision de 30%, le collective learning nous permet de passer à 60% sur notre plateforme de NLP”

L’éditeur californien Moveworks a mesuré l’apport du collective learning avant et après sa mise en application au sein de son application phare, un assistant de support informatique. “En utilisant les données d’interaction d’une seule entreprise cliente, nous atteignons une précision (ou taux de réponses correctes, ndlr) de 30% même avec les modèles de NLP les plus modernes. Le collective learning permet de hisser ce chiffre à 60%”, se félicitent de concert Jiang Chen et Yi Liu, respectivement vice-président machine learning et directeur de la recherche de la start-up de San Francisco. Et ce n’est pas tout.

En aval, le transfert learning est également mis en œuvre par Moveworks pour optimiser le traitement des terminologies propres à chaque organisation. Le principe ? Intégrer à la plateforme les meilleurs réseaux de neurones open source taillés pour gérer les échanges en langage naturel puis leur adjoindre des couches supplémentaires en fonction du vocabulaire technique cible. Une méthode qui, au final, permet à Moveworks d’enregistrer un niveau de précision de 90%.

Taux de précision relevés par Moveworks suite à la mise en œuvre du collective learning puis du transfert learning pour bâtir sa plateforme de NLP. © Moveworks

“En augmentant le volume de données pertinentes de départ, le collective learning contribue à réduire la phase de feature engineering”, ajoute Didier Gaultier chez Business & Decision. Comme son nom l’indique, cette étape consiste à formaliser les attributs (features) communs aux informations d’apprentissage. “Quand on manque de données, on augmente le nombre de variables voire le nombre de dimensions dans la base d’entraînement pour compenser. Ce qui prend de facto plus de temps”, explique le data scientist, avant de prévenir : “Le collective learning ne règle pas pour autant la problématique des données personnelles ni celle des biais qui, rappelons-le, sont le plus souvent liés à la base d’entrainement.” En cas de biais engendrant des erreurs ou des injustices dans les résultats, qui serait responsable ? L’éditeur du modèle ou tout ou partie des entreprises ayant partagé leurs data ? A la différence du ciblage publicitaire, la question se révèlera des plus critiques dans le cas d’une IA d’octroi de crédit ou d’un algorithme de voiture autonome.

Vers un Internet des IA

Aux côtés du privé, les laboratoires publics s’intéressent eux-aussi au collective learning. Parmi les principales sommités du domaine, le chilien César Hidalgo, ex-directeur du groupe Collective Learning du MIT Media Lab, dirige depuis 2019 la chaire Société augmentée de l’institut d’Intelligence artificielle et naturelle de l’Université de Toulouse. Son approche : appliquer le machine learning et les statistiques à des masses de données partagées en open data pour mieux comprendre les mouvements macro-économiques.

“L’intelligence artificielle se limite pour l’heure à des tâches spécifiques (reconnaissance et synthèse vocale, de textes, d’images, analyse de sentiment… ndlr). Dans le futur, l’apparition d’IA généralistes capables de réaliser des tâches multiples va bouleverser la donne”, estime César Hidalgo. “Si les pays et entreprises acceptent de mettre en commun ces modèles de nouvelle génération, on verra apparaître des réseaux d’IA multicellulaire capables de comprendre et résoudre des problèmes nettement plus difficiles à traiter, faisant intervenir des événements et interactions multiples en temps réel.” Un tel réseau pourrait permettre de saisir des phénomènes dynamiques basés sur des systèmes complexes, à l’image des flux financiers, du changement climatique, des mouvements de populations, des guerres… voire d’événements géopolitiques ou géoéconomiques pouvant s’expliquer par une corrélation de tout ou partie de ces éléments.

The post Collective learning : l’union fait la force pour contrer les Gafa first appeared on ProcuRSS.eu.