2 fausses vérités sur le Big Data

1 – « Avec le Big Data il est désormais possible de découvrir de nouvelles tendances de consommation, d’améliorer les processus métier, de développer des algorithmes prédictifs qui permettent de maitriser les risques financiers, industriels, technologiques … »

image

Génial ! Sauf que ce n’est pas l’avènement du Big Data qui est à l’origine du développement de méthodes statistiques de traitement de l’information à vocation business. Des outils analytiques(Data Mining : apprentissage supervisé et non supervisé, Text Mining, Web Mining, règles d’associations, recherche opérationnelle…) ont été déployés dans la BI traditionnelle et ont apporté des réponses adéquates à diverses problématiques fonctionnelles : Scoring bancaire, Churn, score d’appétence, bâle2, segmentation clientèle, analyse du ticket de caisse, CRO…

A mon avis, la question fondamentale se situe plutôt à ce niveau : quelles sont les innovations apportées par le Big Data à la fois sur les volets technologiques et fonctionnels?

A/ La transition de la BI classique vers ce qu’on peut appeler EIM (Enterprise Information Management)

Selon une étude publiée par Gartner en 2011, le volume d’information disponible dans le monde croît de 59% chaque année et devait atteindre environ 8Zo de données à l’horizon 2015 (1 ZettaOctet équivaut à plus d’un milliard de Téraoctets), avec plus de 3 milliards d’individus connectés.

Dans un autre rapport diffusé par IBM en 2012*, il est rappelé qu’une entreprise génère 44% de données en plus chaque année, il est également mentionné que 85% des données dans une entreprise sont de type non structurées.

Le déluge informationnel et la modification structurelle de la nature des données disponibles peuvent être expliqués par l’évolution observée autour des principaux canaux de diffusion de l’information. A titre d’exemple : prenons le cas d’un client qui vient d’acquérir un appareil (mobile, ordinateur portable etc)et qui rencontre des dysfonctionnements. Pour marquer sa déception, il est fort probable qu’il réagisse en premier lieu sur un réseau social ou un forum spécialisé avant de penser à appeler le Customer Service du fabricant de l’appareil défectueux.

L’enjeu de l’EIM est de pouvoir exploiter efficacement ce déluge informationnel (structuré et non structuré) en apportant des solutions et des outils adaptés pour répondre aux besoins stratégiques et fonctionnels des entreprises. Il s’agit également de faciliter l’accès à l’information pour les décideurs en tout lieu et en tout temps. L’objectif est d’accroître la performance et la compétitivité de l’entreprise

B/ La possibilité de stocker et modéliser les données non structurées

Grâce aux bases de données NoSQL (MongoDB, Neo4g, Hbase…) il est désormais possible de stocker des fichiers de différents formats (Word,txt, pdf, audio, vidéo, jpg, json, tables structurée, mails…) et développer des traitements analytiques à partir de ces fichiers (machine learning, text mining, EDA). Les SGBDR (Systèmes de Gestion de Base de Données Relationnelles) ont été développés pour stocker uniquement des données structurées : il est difficile d’imaginer qu’on puisse stocker des fichiers texte, documents Word, PDF ou des mails dans une base ORACLE, SQL SERVER, ou encore MySQL. Les Framework Hadoop et Spark sont des réponses apportées  aux problèmes de performance, de volumétrie et permettent de modéliser efficacement les données de type non structurées

C/ Optimiser la connaissance client

La capacité de stocker et analyser des données massives offre aux entreprises la possibilité de conserver l’information client à un niveau de granularité beaucoup plus fin. L’intérêt est la possibilité de créer des offres hyper personnalisées et générer un meilleur ROI.

Un cas concret est celui d’un groupe qui opère dans la cosmétique : avec l’aide de l’internet des objets (IoT), il peut disposer dans ses points de vente de capteurs qui détectent automatiquement pour chaque client le type de peau et/ou le type de cheveux. Ces informations sont collectées, stockées, analysées et peuvent être associées à des critères RFM pour proposer à chaque client des produits parfaitement compatibles avec son type de peau et ses habitudes de consommation.

Ce qui est valable dans la connaissance client l’est aussi dans la gestion des processus, le pilotage de la performance, la gestion des risques, la détection de la fraude.

2- « Avec le Big Data il n’est plus nécessaire de réaliser un échantillonnage des données, car il est maintenant possible de stocker et traiter d’énormes volumétries (pétaoctets) de données en un temps record »

A/ La donnée est-elle objective ?

Les personnes qui développent ce genre de discours pensent à tort que l’objectif principal de l’échantillonnage est de résoudre les problèmes de performance. Même si l’échantillonnage peut être une réponse aux questions de performance, ce n’est pas pour autant sa fonction première : la donnée en elle-même n’est pas objective, ce n’est pas la donnée qui fait l’information, mais c’est l’information qui fait la donnée. En d’autres termes, la qualité et la fiabilité des analyses et résultats que je vais produire dépendent de la qualité de la donnée dont je dispose et du contexte dans lequel elle a été produite.

Dans un article écrit par Kenneth Cukier et Victor Mayer-Schonberger**, les auteurs pensent que l’échantillonnage n’est plus nécessaire puisqu’on peut collecter, stocker et analyser toute la donnée. Finis les biais générés par les erreurs d’échantillonnage puisque la donnée porte en elle-même toute l’information.

Pourtant, les résultats et les conclusions d’une analyse sont très fortement corrélés aux données qui ont été exploitées pour les produire. Pour illustrer cet aspect, prenons le cas d’un sondage post-électoral : Même si on arrive à interroger toutes les personnes qui sortent du bureau de vote, il restera une partie de la population dont on ne pourra prendre compte : les abstentionnistes, ou ceux qui n’ont pas eu la possibilité de se rendre dans un bureau de vote quelque soit la raison. Or c’est peut-être cette partie de la population qu’il faudrait interroger pour comprendre la structure du vote dans le pays. Un autre exemple beaucoup plus édifiant est celui des moteurs de recommandation : Un site web qui propose aux internautes du contenu multimédia en ligne. La VoD (films, séries, documentaires…), si la plupart des personnes qui se donnent la peine d’évaluer les contenus se situent dans la tranche d’âge des 15-25 ans, le moteur aura plutôt tendance à proposer des contenus en lien avec les préférences et les habitudes de la population constituant l’échantillon de départ. Ce qui pourrait ne pas correspondre aux préférences des internautes dont la tranche d’âge se situe entre 35 et 55 ans.

B/ Good data + Good model = Good insight Versus Bad data + Good model = Bad Insight

Il est illusoire de s’imaginer qu’on peut améliorer la connaissance client sans améliorer la connaissance de la donnée, optimiser la performance sans optimiser la qualité des données, réduire et maîtriser les risques sans prendre en compte ceux liés aux « bruits » présents dans nos données… Dans un contexte de données massives et multi formats, L’EDA (Exploratory Data Analysis) devient incontournable.

La méthode de l’EDA consiste à prendre connaissance de la donnée, lui apporter une cohérence – qu’elle n’a presque jamais de manière automatique-, et corriger les bruits liés au contexte à partir duquel elle a été générée. L’objectif est de permettre aux données d’être réellement exploitables. Il est important de préciser que c’est la question à laquelle je suis appelé à répondre qui va définir la structure et le périmètre de données à exploiter. Les modèles prédictifs ont pour objectif d’expliquer la réalité. L’échantillonnage permet aux données de se rapprocher de la réalité, ce qui va apporter plus de fiabilité et de précision aux modèles prédictifs. Oui, la donnée a de la valeur, mais elle ne raisonne pas.

* Source : IBM Business Analytics and Optimization for the Intelligent Enterprise, Avril 2009
** The Rise of Big Data. 2013

Par Erick Atangana
https://www.linkedin.com/pulse/2-fausses-v%C3%A9rit%C3%A9s-sur-le-big-data-erick-atangana?forceNoSplash=true

Publicités