Big data : les désillusions pointent déjà

Selon John Foreman, data scientist chez MailChimp.com, la promesse marketing des big data ne ressemble guère à la réalité. Les critiques commencent à pointer les limites du big data, mais les analystes continuent de voir en lui un avenir radieux.

Après les attentes démesurées, les désillusions ? La vague du big data a peut être atteint un pic, en tout cas pour ceux qui suivent le Gartner Hype Cycle. En d’autres termes, certains professionnels commencent à douter des annonces marketing autour de l’analyse big data et à adopter un point de vue plus critique sur les limites des systèmes big data. Selon le credo, plus une entreprise collectait de données, plus elle pourrait en extraire des informations pointues et utiles. Un ingénieur de Google, qui a été gavé au big data plus que n’importe qui, a nommé cette notion « la déraisonnable efficacité des données ». Dans une série d’articles, le dernier numéro de Science News dresse dans le détail les limites des gros volumes de données, dont le plus récent s’intitule « Le Big data et les défis de la réplication ». Le problème, selon Sciences News, est loin d’être sans intérêt. Avec une telle quantité de données et autant d’outils différents pour les analyser, comment peut-on être sûr que les résultats sont corrects ? « Chaque fois qu’un scientifique préfère une application à une autre ou décide d’analyser une variable, plutôt qu’une autre, ce choix peut conduire à des conclusions très différentes », a écrit Tina Hesman Saey. Ce problème de la validité ne concerne pas seulement les grands consommateurs de données, mais toute la communauté scientifique dans son ensemble.

Impossible de reconduire les mêmes traitements ?

Dans un autre article, Science News aborde la question des résultats non reproductibles, ou celle de l’incapacité croissante des scientifiques à reproduire des résultats d’études publiées antérieurement. Or, un des principes de base de la science implique, dans des conditions initiales identiques, la possibilité pour n’importe qui, de reproduire l’expérience. Mais un nombre croissant de chercheurs a constaté que même les études les plus rigoureuses ne peuvent parfois pas être reproduites et donner les mêmes résultats. « La reproductibilité est une pierre angulaire de la science, et de nombreuses études ne répondent pas à cette exigence », a écrit Tina Hesman Saey. « On peut expliquer une science douteuse par une multitude de raisons (dont, la pression de publier pour les chercheurs), mais une mauvaise utilisation de l’analyse statistique, qui demande de la subtilité et qui est difficile à mener correctement, en est une », fait remarquer Tina Hesman Saey.

D’autres observateurs font également part de leur lassitude vis-à-vis des promesses marketing du big data vendues par IBM, Hewlett-Packard et d’autres. « Ce marketing agressif véhicule une idée endémique selon laquelle la science de l’analyse des grosses quantités de données peut émerger rapidement, en soutenant une entreprise innovante, en rapide évolution », a récemment écrit dans un blog John Foreman, « data scientist » chez MailChimp.com, une société spécialisée dans le routage d’emails. « Mais, d’après mon expérience et celle de la plupart des analystes que je connais, cette promesse marketing ne ressemble guère à la réalité ». Il ajoute que pour aboutir à une bonne modélisation statistique, il faut d’une part des données stables, au moins quelques cycles de données historiques, et au moins une série de résultats prévisibles. Cette démarche laborieuse pour mettre en place tous ces éléments va à l’encontre de l’idée, véhiculée par les nombreuses campagnes marketing, selon laquelle les gros systèmes de données peuvent délivrer rapidement de bons résultats. Évidemment, la question de la validité des big data sera abordée à la conférence O’Reilly Starta / Hadoop World, qui se tiens cette semaine (17-20 février) à San Jose, Californie. Dans une présentation, Simon Garland, le stratège en chef du vendeur de la base de données Kx Systems, dira à quel point les traitements big data sont brouillés et inconhérents, et ne peuvent pas être gérées correctement avec les systèmes d’analyse de base de données traditionnels.

Le Gartner reste bien sûr encore optimiste écrit Dough Laneya écrit Dough Laney.

Selon John Foreman, data scientist chez MailChimp.com, la promesse marketing des big data ne ressemble guère à la réalité.John Foreman data scientist

Article de Joab Jackson, IDG NS (adaptation Jean Elyan)
Publicités