Le Big Data en 8 questions

Le Big Data, c’est quoi ?

Les champs couverts par le terme Big Data sont vastes, et les contours en sont encore flous. Pour résumer à grands traits, le Big Data est une démarche consistant à collecter puis à traiter en temps réel, ou presque, des données à la fois très nombreuses et très hétérogènes.

Le développement du concept de Big Data va de pair avec l’explosion du nombre de données. Pour avoir un autre ordre d’idée, 90 % des données dans le monde ont été créées ces deux dernières années ! Ce sont des mails (118 milliards sont envoyés chaque jour dans le monde), des SMS, des photos, des vidéos, des commentaires sur les réseaux sociaux, des fichiers de logs sur des sites internet, des données fournies par des capteurs électroniques… Ce déluge d’information se mesure désormais en zettaoctects (1 000 milliards de gigaoctets). En 2020, 10,4 zettaoctects de données devraient être déversés chaque mois sur internet. Soit 160 000 millions de milliards de fois la capacité du plus puissant des iPhone actuels.

La problématique dans laquelle s’inscrit le Big Data ne relève pas uniquement du volume, mais aussi de l’hétérogénéité de ces données. Dans une interview au site ZDNet, Stephen Brobst, membre de la commission technologique auprès de l’administration Obama, et directeur technique de Teradata, une entreprise spécialisée dans le stockage de données, explique : « On entend énormément de choses au sujet du Big Data. Et tous ces propos contribuent à la confusion générale. Par exemple, nombreux sont ceux qui mettent en avant les gros volumes de données pour expliquer ces technologies. Or, cet aspect n’est vraiment pas le plus innovant, et certainement pas l’essentiel. La caractéristique principale tient dans la possibilité de gérer simultanément une grande variété de formats de données provenant de sources multiples (…). Le concept Big Data consiste à répondre à une préoccupation liée à la gestion de plusieurs formats d’informations générés en volume.  »

Le Big Data se définit ainsi parfois autour de 3 V. Pour Volume (la masse de données sans cesse croissance), Vitesse (car la collecte, l’analyse et l’exploitation des données s’opèrent souvent en temps réel) et Variété (en référence à l’hétérogénéité des formats).

Comment est-on aujourd’hui capable de traiter cette masse de données hétérogènes ?

Les technologies permettant le Big Data ont été développées à l’origine par les grands acteurs du Web – Google, Yahoo !, Facebook, Amazon…– pour indexer, puis exploiter la masse de données en leur possession. Ce sont de nouveaux modèles de programmation (comme MapReduce et Hadoop) permettant le traitement de très grands volumes de données sur plusieurs machines en parallèle.

C’est aussi une nouvelle philosophie de base de données : des bases de données non relationnelles dites NoSQL (pour Not Only SQL). « Pour faire très raccourci, explique Bruno Walther, co-fondateur de Captain Dash, une start-up spécialisée dans l’informatique décisionnelle, la technologie du NoSQL est un système de requête de bases de données qui fonctionne sans base de données et sans requête. C’est un peu comme si vous aviez un grand fichier Excel avec des milliers de lignes et plein de colonnes. »

Le Big Data bénéficie aussi du développement du Cloud computing (le stockage et le traitement informatiques sur des serveurs distants). Auparavant, une entreprise ou une organisation scientifique devait posséder sa propre infrastructure pour réaliser ses traitements et ses calculs informatiques. Aujourd’hui, il est possible de louer d’énormes capacités de calcul en faisant appel aux serveurs proposés par IBM ou Amazon. Une location parfois limitée à quelques heures seulement, voire moins, ce qui réduit considérablement les coûts.

 
Que change le Big Data en termes de connaissance client ?

« On exploite désormais toutes les données dont on dispose sur un client, en les mettant toutes au même niveau, sans les hiérarchiser : leur âge, leur profession, les boutiques autour de chez eux… Cela nous permet d’établir des profils de clients totalement nouveaux  », explique au Monde Marc Atallah, directeur chez Deloitte France.

Pour Bruno Walther, un des intérêts majeurs du Big Data est de ne plus raisonner en termes de moyenne. « Quand on y réfléchit, toute la pensée marketing est basée sur la moyenne et les segments, explique-t-il. Certes, c’est rassurant et relativement efficace bien sûr. Mais ça ne fonctionne pas (…) Raisonner sur la moyenne quand on fait du marketing, c’est aussi absurde qu’un vendeur de jeans qui dirait qu’il ne propose que des tailles 42 dans sa boutique parce que c’est la taille moyenne la plus vendue. »

Le Big Data permet, par exemple, d’affiner l’analyse des taux de clic d’une campagne de publicité sur internet. « Si vous prenez l’ensemble de la granularité de la donnée, vous allez vous apercevoir qu’à certains moments, la campagne a fait 5 % de taux de clics et à d’autres 0 %, poursuit Bruno Walther. Vous observerez, et cela marche aussi systématiquement, que quand vous avez une campagne de publicité qui passe à la télévision, dans les 5 minutes, vous multipliez par 5, 6 ou 10 votre taux de clic. C’est normal : 40 % des gens sur tablettes regardent la TV en même temps. Mais la moyenne gomme tous ces comportements.  »

Que permet l’exploitation des informations laissées par les consommateurs sur les réseaux sociaux ?

La possibilité d’analyser automatiquement tout ce qui se dit sur une marque par les internautes n’est qu’un des aspects du Big Data. Mais il attire l’attention des entreprises qui y trouvent le moyen d’avoir un feed-back continu sur leurs produits et l’état de leurs relations client.

IBM est l’un des prestataires en pointe dans l’analyse des réseaux sociaux et de la mesure du « bruit » autour d’une marque. L’entreprise a développé une offre capable de scruter automatiquement des milliers de sites spécialisés, de blogs, de forums, etc. En menant une étude aux Etats-Unis pour « La vache qui rit », IBM a par exemple détecté que la marque était perçue sur ce marché comme un produit diététique. Ce qui n’avait pas encore été identifié. « La vache qui rit » est donc passée dans les rayons diététiques, faisant progresser les ventes de 40 %.

Autre client d’IBM, Henkel. En étudiant les commentaires sur un nouveau détergent, des avis négatifs sont remontés concernant… l’odeur. Un problème méconnu jusque-là, relate Les Echos, qui a entraîné la modification de la formule de la lessive. De même, lors de la commercialisation d’un produit de sa marque de cosmétiques Schwarzkopf, Henkel a constaté, contre toute attente, que des adolescentes étaient très intéressées. « Ils ont alors rapidement proposé une version moins coûteuse et un conditionnement plus adapté à cette nouvelle clientèle », résume Eric Martin, responsable de l’offre Media Analytics chez IBM.

 
Peut-on imaginer de prédire le comportement des consommateurs grâce au Big Data ?

Gilles Babinet, investisseur dans de nombreuses start-up dont Captain Dash, l’assure : « Ce qu’on est capable de faire avec la météorologie et la prévision à quinze jours est possible dans tous les domaines ». Un exemple, en dehors du monde de l’entreprise, illustre bien le potentiel du Big Data. Plusieurs grandes villes américaines se sont équipées du logiciel PredPol (pour Predictive Policing), qui vise à prédire où et quand un crime va se produire. « Grâce à une base de données recensant les infractions passées, la formule mathématique – complexe et tenue secrète – permet d’aiguiller très précisément les forces de l’ordre », explique Le Monde qui a enquêté sur le sujet. Dans la pratique, alors qu’aucune infraction n’a encore été commise, des policiers viennent se positionner à un endroit et à un moment indiqués par PredPol, et attendent qu’un délit s’y produise, sachant aussi que leur présence sera dissuasive.

Le système, qui s’actualise en temps réel et qui est accessible depuis un ordinateur, une tablette, ou même un smartphone, détermine des « points chauds », où le risque d’infraction est le plus élevé. Et cela fonctionne. À Los Angeles, entre novembre 2011 et mai 2012, ce dispositif a contribué à faire chuter de 33 % les agressions et de 21 % les crimes violents. À Santa Cruz, le nombre de cambriolages a diminué de 19 % sur les six premiers mois de l’année.

Autre exemple de prédiction, dans un tout autre univers : la possibilité de tomber amoureux ! Un site de rencontres américain a ainsi mis en place une architecture Big Data pour améliorer l’algorithme de recommandation de profils entre ses membres. Objectif : une meilleure analyse d’un plus grand nombre de paramètres pour, au final, améliorer les chances de trouver l’âme sœur.

Ce qui fonctionne pour des délinquants et les amoureux peut aussi s’appliquer aux consommateurs ! Par exemple, en analysant les recherches et les habitudes de navigation des internautes pour tenter de deviner quels seront leurs prochains achats. Et leur proposer de façon proactive des publicités correspondantes. Jusqu’ici, rappelle Les Echos, lorsqu’un internaute effectuait une recherche sur un produit (un vol, un appareil photo, une machine à laver, etc.), les spécialistes du « retargeting » étaient capables de proposer une bannière liée à ce produit. Il est d’ailleurs devenu fréquent de voir apparaître des publicités ciblées après une recherche.

Aujourd’hui, il devient possible de prédire si une personne pourra être intéressée par des produits proches, comme une réservation d’hôtel, une location de voiture ou une caméra vidéo. Selon Criteo, le leader de la publicité ciblée en ligne, les taux de clic sont certes inférieurs aux produits classiques de « retargeting » (deux fois environ), mais au moins trois fois supérieurs aux bannières classiques.

Sans aller jusqu’à deviner l’avenir, le Big Data permet aussi d’avoir une vision précise d’une situation à un moment donné. MFG Labs, une start-up française, a pu déterminer quelles étaient les grandes destinations touristiques mondiales du moment à partir des photos postées sur le site Flickr. C’est aussi l’exemple du système « Flu trends » de Google. Le géant du web a créé un modèle permettant d’estimer la propagation des cas réels de grippe en fonction des recherches sur internet autour de ce mot. Sachant que tous les internautes qui tapent « grippe » sur leur clavier ne sont pas nécessairement malades. Au final, l’évaluation que fournit Google en temps réel sur la propagation de la maladie est étonnamment précise (les résultats ont même été publiés dans la revue Nature). Et elle provient avant que la grippe ne soit effectivement diagnostiquée et que les résultats ne remontent…

Big Data, Open Data, existe-t-il un lien ?

L’Open Data, c’est la mise à disposition de données numériques brutes, émanant le plus souvent d’administrations ou de services publics, ainsi que de collectivités territoriales. Ce sont par exemple les infos trafic, les horaires des bus, la localisation des espaces verts et des bureaux de poste sur un territoire, etc. Rendues librement réutilisables, ces informations peuvent donner lieu à la création de nouveaux services. Comme des applications permettant aux automobilistes de trouver une place de parking disponible.

Il n’y a pas de lien direct entre l’Open Data et le Big Data, mais les données émanant de l’Open Data peuvent être utilisées dans une approche Big Data (par exemple, si l’on veut avoir comme critère les personnes qui vivent près, ou loin, d’un arrêt de bus, ou dont la ligne de métro est très encombrée à certaines heures).

 
Où en sont les entreprises françaises en matière de Big Data ?

Plusieurs études existent autour de cette question, avec une approche plus ou moins optimiste. L’enquête réalisée l’an dernier auprès de 100 entreprises françaises par IDC pour SAP, l’éditeur de logiciels, dresse un tableau assez mitigé. Le concept même de Big Data est mal appréhendé : 36 % des entreprises interrogées jugent le terme « flou », et 32 % l’estiment compréhensible mais imprécis.

L’argument de tirer profit de gros volumes de données apparaît par ailleurs très relatif, puisque 61 % des entreprises gèrent moins d’un téraoctet (1 000 gigaoctets) de données et 84 % moins de 5 téraoctets. Globalement attentistes, les entreprises donnent comme frein à l’adoption d’une solution Big Data principalement le coût (60 %), la clarté du concept (43 %) et la maturité des offres (36 %).

Le Big Data ne crée-t-il pas un problème de confiance entre les marques et les consommateurs ?

Une photo postée sur Facebook, un mot-clé tapé sur internet, un produit consulté sur un site de e-commerce, un article lu sur un quotidien en ligne, une géolocalisation via son mobile… Chaque jour, une personne communique, souvent à son insu, de très nombreuses informations sur ses goûts, ses habitudes, son comportement, sa vie privée…

Une anecdote circule dans la communauté des experts du Big Data : un Américain a appris que sa fille était enceinte… après la chaîne de magasins Target. En analysant ses visites sur des sites web et ses achats en ligne, l’enseigne a identifié que l’adolescente attendait un enfant. Elle lui a alors envoyé des bons de réductions pour des vêtements et des lits de bébé. Et c’est ainsi que le père aurait découvert la grossesse de sa fille. L’histoire montre bien toute la difficulté à concilier le ciblage permis par le Big Data, et le respect de la vie privée : jusqu’où aller dans l’exploitation des données recueillies sur les consommateurs ?

« Nous ne sommes pas contre l’utilisation des données privées, mais il faut que ce soit fait dans un contexte loyal et que le consommateur puisse contrôler ses propres données », argumente Edouard Barreiro, responsable des nouvelles technologies à UFC-Que Choisir, dans le magazine Le Point. Il propose notamment que les entreprises offrant des services en ligne dédient au consommateur un espace sécurisé, où il pourrait modifier, voire supprimer, les données le concernant.

La Commission européenne s’est saisie de la question, et une nouvelle version de la directive européenne sur la protection des données personnelles de 1995 est en cours de validation. Elle pourrait obliger les entreprises à obtenir le consentement explicite de l’internaute pour l’utilisation de chaque donnée, ou du moins à donner aux individus une plus grande maîtrise des informations qui les concernent.

Les entreprises ont d’ailleurs tout à gagner à instaurer une relation de confiance avec les consommateurs. Selon une étude réalisée en septembre dernier aux Etats-Unis, 74 % des consommateurs seraient même prêts à fournir plus d’informations personnelles s’ils peuvent recevoir en retour des offres réellement pertinentes, et si l’utilisation de ces données s’effectuent avec leur accord, en toute confiance…

http://www.laposte.fr/lehub/Le-Big-Data-ne-cree-t-il-pas-un
Publicités