Big data, la nouvelle frontière

Les chiffres sont impressionnants. Pendant la seule année 2011, le volume de les maths, cela signifie un 1 avec 21 zéros derrière : ça s’appelle des « zettaoctets », et cela représente… autant que toute l’information numérisée jusque-là. En 2013, ce volume a été 4,4 fois supérieur ! A ce rythme, en 2020, l’humanité stockerait 44 zettaoctets de données dans ses ordinateurs, téléphones, tablettes – mais aussi dans ses montres, lunettes, réfrigérateurs, automobiles, puces sous-cutanées, objets de plus en plus bardés de capteurs connectés à Internet. Soit 44 000 milliards de gigaoctets…

Cet univers du big data, ou « données massives » en français, ne servirait pas à grand-chose si celles-ci ne pouvaient être stockées (dans des serveurs de plus en plus grands), transmises (par un débit Internet de plus en plus élevé) et surtout traitées (par des ordinateurs de plus en plus puissants) – bref : si l’on ne pouvait pas en « extraire de la valeur ». Là encore, les chiffres sont énormes : selon l’institut américain Data Driven Marketing, 156 milliards de dollars ont été tirés de l’exploitation des données personnelles dans le monde en 2012. Un chiffre qui, d’après le cabinet de conseil McKinsey, serait porté à 600 milliards de dollars par an si les entreprises exploitaient toutes les données dont elles disposent.

Garder la tête froide devant une telle manne ? Impossible. Des dizaines de rapports, études et séminaires se sont penchés avec gourmandise sur cette « Nouvelle frontière pour l’innovation, la concurrence et la productivité » (titre du rapport McKinsey de juin 2011, devenu le livre de chevet des thuriféraires du big data). Les médias publient des « suppléments big data » payés par la publicité des éditeurs de « solutions logicielles ». Les pouvoirs publics sont sommés de « Faire de la France un champion de la révolution numérique » (titre d’un rapport de l’Institut de l’entreprise, d’avril 2015)…

Coup de froid sur le programme de Google

Face à cette vague, la critique s’organise, qui dénonce les intrusions des entreprises (par la publicité) et des Etats (par la surveillance) dans la vie privée. Mais quelques mathématiciens et informaticiens experts du sujet, pour certains travaillant eux-mêmes avec les entreprises, soulignent d’autres limites, inhérentes à la nature même du big data.

Ces limites sont apparues clairement en 2013, lorsque le programme Google Flu Trends (GFT) s’est avéré incapable de prédire le pic d’une épidémie de grippe aux Etats-Unis. Avec force publicités, Google avait créé, en 2008, un moteur de recherche capable de capter les données personnelles fournies par les internautes sur leur état de santé, assorti d’algorithmes pouvant prédire l’arrivée d’une épidémie plusieurs semaines à l’avance. Après cet échec, Google a abandonné le programme.

Mais ses causes – médiocre qualité et mauvaise interprétation des données collectées – ont passionné les chercheurs. Les enseignements qu’on en a tirés confirment que l’utilisation optimale du big data n’est pas encore pour demain.

Exploiter les données disponibles sur les clients, usagers, citoyens ou électeurs est aussi vieux que le commerce et la politique. Toute la science du marketing et de la gestion publique consiste à les collecter et à les chiffrer, pour pouvoir en faire des statistiques que des algorithmes organiseront de façon logique et que des modèles mathématiques cartographieront afin d’en faire des outils d’aide à la décision. Quelle couleur de « packaging » va plaire à la ménagère de moins de 50 ans ? A qui envoyer des messages pour lancer le buzz sur le prochain épisode de Star Wars… ou sur un candidat à l’élection présidentielle ? A quelles conditions météorologiques devra résister cette aile d’avion ? Auprès de quel type de malades ce nouveau médicament sera-t-il le plus efficace ? A quel quartier d’une ville consacrer le plus de moyens pour ramasser les ordures ? Les objectifs sont toujours les mêmes, mais la possibilité d’exploiter les données massives a renouvelé la façon de faire.

Transformer des données brutes en or

Dans la gestion traditionnelle des données, on isole et on agrège les données « pertinentes » : celles que l’on estime, intuitivement ou empiriquement, liées à l’hypothèse à vérifier, à la question posée. Il s’agit ensuite de comprendre la nature des rapports liant ces données entre elles, puis de modéliser la structure de ces rapports. Le big data, lui, implique « de traiter d’immenses quantités de données hétérogènes, faisant apparaître des liens inattendus, des structures cachées, explique Frank Pacard, mathématicien et directeur de l’enseignement et de la recherche à l’Ecole polytechnique. Au lieu d’utiliser des données pour interroger une hypothèse préalable, la découverte de structures nouvelles permet de formuler de nouvelles hypothèses, qui peuvent et doivent ensuite être testées ». Une promesse de nouveaux continents qui intéresse au plus haut point les entreprises et les investisseurs – les premières rêvant du logiciel qui ciblera leurs campagnes de pub sur leurs seuls futurs acheteurs, les seconds de l’algorithme qui leur fera gagner en Bourse à coup sûr.

Transformer des données brutes en « or informationnel », tel est donc l’enjeu. Les chercheurs sont d’autant plus prêts à y participer que la raréfaction des budgets publics les incite à quêter le soutien du secteur privé, comme le note Michael Jordan, professeur d’informatique à l’université de Berkeley ­(Californie), qui a formé des bataillons de « data scientists » (spécialistes des données) pour Google, Facebook, Amazon, les assureurs et les banques. Mais en réalité, la plupart des entreprises sont loin d’atteindre ce but. « Elles en sont encore à résoudre des questions d’accessibilité à leurs propres données, tant les restructurations permanentes de leur périmètre entravent la mise en place d’un système d’information unique », observeJulien Laugel, de MFG Labs, une start-up récemment rachetée par Havas Media et qui vend aux entreprises des systèmes d’exploitation de données. Elles sont peu nombreuses à avoir franchi la seconde étape, celle de la sécurisation des données (indispensable pour conserver leur avantage concurrentiel). Elles le sont encore moins à utiliser ces données pour guider leurs décisions… Et elles ne sont qu’une poignée à en retirer de la valeur. Ce qui ne les empêche pas, pourtant, de se ruer sur les solutions vendues par les prestataires de services.

« Il y a une sorte de “pensée magique” associée aux chiffres, dont l’exactitude paraît synonyme d’efficacité ; les volumes évoqués déclenchent des fantasmes d’omnipotence et d’omniscience », reconnaît Julien Laugel. Les promesses du big data font ainsi oublier que les données massives sont… des données, qui obéissent aux lois statistiques de marges d’erreur, d’intervalles de confiance et de fausses interprétations. Complication supplémentaire : l’apparition de structures de corrélations fortuites au sein de nuages de données massives accroît la tentation d’y déceler des causalités inexistantes. « Avec tant de points de mesure et donc tant de liens potentiels entre ces mesures, nos outils d’analyse statistique produisent des résultats dénués de sens », ­observe Alex Pentland, professeur de sciences des médias au Massachusetts Institute of Technology (MIT). A Berkeley, son alter ego Michael Jordan souligne un autre biais : ­à mesure que les individus prennent ­conscience de la valeur de leurs données, ils vont livrer des informations aux capteurs et aux réseaux avec un degré de sincérité de plus en plus ­sélectif.

« Parfois, ça marchera, parfois non »

Les internautes seront par exemple plus enclins à communiquer leurs données de santé à leur médecin que leurs goûts culinaires ou artistiques à Facebook. Déjà, ils cliquent ainsi régulièrement sur la page de désabonnement des sites des opérateurs téléphoniques, car ils savent que l’algorithme va automatiquement leur proposer une offre promotionnelle. Or, explique Michael Jordan, nous ne savons pas évaluer l’impact de l’insincérité des données sur les résultats offerts par le big data, précisément parce que le big data traite par définition toutes les données, même les fausses ! Le chercheur a également observé que la mise en parallèle d’ordinateurs de plus en plus nombreux et puissants pour traiter et modéliser l’information engendre un type spécifique d’erreurs. « Le big data reste pour l’instant l’apanage de gens qui inventent et vendent des systèmes informatiques, mais qui n’affrontent pas les problèmes spécifiques posés par le traitement de données massives, observe-t-il. Nous n’avons pas encore de théorie bien affirmée pour penser les modèles construits à ­partir de ces données. Parfois, ça marchera, parfois non. »

Deux autres écueils, d’une nature cette fois purement mathématique, sont mis en avant par les experts. Le premier concerne ce qu’on appelle la « discrétisation » : il s’agit d’intégrer de la discontinuité dans des modèles mathématiques continus, ceux-là mêmes qu’utilisent les ordinateurs pour élaborer des modèles. Les effets dévastateurs de cette différence entre continuité supposée et discontinuité réelle ont été observés dans la finance à haute fréquence : la succession d’achats et de ventes de titres à la nanoseconde près selon un modèle continu a, dans la réalité discontinue, ruiné quelques investisseurs insouciants… Certes, les mathématiciens savent réintégrer de la discontinuité dans leurs modèles (c’est la « discrétisation »). Mais cette opération est délicate et parfois source de nouvelles erreurs.

L’autre problème mathématique tient au volume même des données. A l’école, on apprend à répartir des « objets » dans un espace construit selon deux paramètres, donc sur deux axes : l’abscisse et l’ordonnée. Les élèves des sections scientifiques planchent sur des espaces « vectoriels » à trois dimensions. Les cadors des mathématiques, eux, savent construire des espaces à dix, vingt, trente, cinquante dimensions, permettant de cartographier les relations entre des objets en fonction d’autant de paramètres. Mais avec les données massives, les objets se répartissent dans des espaces à 60, 70, 100 dimensions, voire plus. Il devient alors difficile d’identifier des structures entre des objets très « éloignés » les uns des autres, et d’en obtenir une visualisation perceptible à l’œil humain, a fortiori lorsque cet œil est managérial ou politique.

« Le traitement des données massives peut engendrer des erreurs massives, et donc de mauvaises décisions d’une ampleur catastrophique », affirme ­Michael Jordan, mathématicien à Berkeley.

Ces craintes épistémologiques doucheront-elles l’enthousiasme d’entreprises et d’administrations qui pensent avoir trouvé la pierre philosophale ? Pas certain. « Le traitement des données massives peut engendrer des erreurs massives, et donc de mauvaises décisions d’une ampleur catastrophique », affirme ­Michael Jordan. Le mathématicien redoute le triomphe de ce qu’il appelle « la pensée informatique » sur « la pensée intuitive ». Car la première, dit-il, ne sait pas prendre en compte la notion de risque. C’est pourquoi la présence de l’expert aux côtés de l’informaticien est indispensable.

Contrairement à ce que l’on lit dans de nombreux rapports, les entreprises n’ont pas ­besoin de recruter en masse des « data ­scientists », renchérit Frank Pacard. Il leur faut plutôt « des experts de leur secteur d’activité ayant une compétence en informatique et en mathématiques, qui soientcapables d’expliquer quels sont les enjeux et les réalités de leur métier, de formuler les bonnes questions et éventuellement d’interpréter les structures qui apparaissent dans les “nuages” de données massives ». Si les informaticiens et les financiers de l’entreprise deviennent les seuls ­interlocuteurs des prestataires du big data, les risques de dérapage seront multipliés.

Erreurs de jeunesse

Julien Laugel dit la même chose, mais autrement. Les données massives, remarque-t-il, ont « un faible ratio signal/bruit », c’est-à-dire que chacune d’entre elles offre une faible probabilité de présenter un intérêt pour l’utilisateur, et une forte probabilité de n’avoir aucun sens. Même le fameux « like » de Facebook, qui permet à la firme américaine de gagner des millions auprès d’annonceurs fascinés, présente un défaut d’asymétrie d’information sous son apparente simplicité binaire. Si cliquer sur le pouce dressé (le 1) délivre un message clair (la personne aime), ne pas cliquer (le 0) est ambigu : n’aime-t-elle pas, ou n’a-t-elle pas vu, ou a-t-elle sciemment omis de donner son avis ? « C’est typiquement le genre de situations où faire des extrapolations à partir de corrélations est extrêmement tentant… et dangereux. »

La facilité pour les utilisateurs est alors de se réfugier derrière l’automatisation du traitement des données, c’est-à-dire de renoncer à exercer un choix humain parmi les données proposées. Or, cette automatisation oblige à « simplifier » les objets mathématiques pour faciliter leur mise en algorithme, et donc à privilégier leur similitude plutôt que leur différenciation. Au risque de renoncer à l’apport principal du big data : nous faire découvrir des réalités que nous ne soupçonnions pas.

Julien Laugel n’en reste pas moins convain­cu : le big data ne sera pas une bulle et changera radicalement la gestion des affaires et de la décision publique. Mais il reste un long chemin à parcourir pour en dépasser les erreurs de jeunesse. « Après le Far West des mathématiciens modélisateurs, la victoire reviendra, tôt ou tard, à celui qui aura le plus de données, prévoit-il. Nos clients les plus importants, les assureurs par exemple, ont des équipes de data scientists capables de comprendre les limites de leurs propres modèles. Nous savons aussi réintroduire dans nos modèles des données agrégées, ou des données extrêmes, qui rétablissent la robustesse de nos modèles. » La science des algorithmes progresse implacablement, dissipant les fantasmes tout en révélant l’ampleur de ce qui reste à accomplir.

En attendant, mieux vaut rester vigilant. A Trente, en Italie, les équipes du professeur du MIT Alex Pentland ont mené, avec les entreprises de la ville et la municipalité, une expérience de « nouveau contrat social sur les données ». Les habitants ont été invités, sur la base d’un « consentement éclairé », à livrer des données personnelles afin de participer à l’amélioration des politiques publiques : seules les informations nécessaires à ces politiques étaient demandées. Une façon élégante de ne pas céder à l’illusion lyrique du big data, ainsi résumée par Michael Jordan : « Le problème, c’est qu’on ne sait pas de combien de données il faut disposer pour résoudre un problème. »

Antoine Reverchon

http://abonnes.lemonde.fr/pixels/article/2015/10/29/big-data-la-nouvelle-frontiere_4799387_4408996.html?xtmc=big_data&xtcr=6

Publicités