Mais, en fin de compte, c’est quoi la donnée?

La digitalisation de notre société, et plus particulièrement la transformation numérique big-data-300x200des entreprises, génèrent une quantité incroyable de nouvelles données qui s’ajoutent à celles qui existaient déjà. Néanmoins, détenir des données en ne sachant qu’en faire est un non sens. Par conséquent, alors que la technologie a permis de faire tomber la plupart des barrières, les nouvelles capacités de stockage, de traitement et d’analyse des données doivent permettre de créer ou d’investir de nouveaux marchés.


 

Mais, puisque l’on parle de donnée, de data, d’information, de savoir quoi en faire et comment en tirer profit, de quoi parle-t-on exactement ? Comment peut-on les classer ? Y a-t-il différentes familles ? Voila toutes les questions que ce billet va essayer d’aborder.


 

Définition de la donnée

On parle ici évidemment de la donnée « informatique » (aussi nommée avec l’anglicisme Data) qui est selon wikipedia la représentation, codée ou non, d’une information pouvant être réutilisée par un programme informatique. Cette donnée peut être du texte, des nombres, des images, des sons, des signaux,… Assemblées, organisées ou pas d’une manière structurée, elles peuvent constituer un fichier, être enregistrées dans une base de donnée (http://www.lemagit.fr/definition/Base-de-donnees) plus ou moins complexe ou performante. Elles sont la plupart du temps manipulées par des programmes qui ont pour but de les transformer pour créer de nouvelles informations plus riches, ou tout simplement pour les utiliser telles qu’elles sont.

Données internes / Données externes.

Les entreprises utilisent des données depuis longtemps, on parle alors communément de données internes puisque, presque en totalité, elles sont produites et consommées par les systèmes d’information des Directions Financière (performance financière, bilans), Commerciale (clients, objectif et atteinte des ventes), Marketing (catalogue produit), Informatique (niveau de performance et de service) et de Production (planning, capacité).

Aujourd’hui, par le biais de la démocratisation de l’informatique, c’est à dire par l’émergence des ordinateurs familiaux puis des téléphones intelligents et enfin des tablettes, avec leur palette d’applications de toutes natures – des réseaux sociaux aux jeux – les données ne sont plus réservées au monde professionnel, elles se trouvent aussi à l’extérieur de l’entreprise. En opposition aux données internes, on parle alors des données externes. L’explosion de la volumétrie concerne particulièrement les données externes. Par exemple, on considère que chaque personne en 2020 génèrera sur une seule année 5 To de données (1 To = 1 000 Go), et 50% de ces données seront générées automatiquement. Un conseil, pensez d’ores et déjà à augmenter votre forfait internet.

Evidemment, ce déluge de données n’a pas été sans conséquence. Par la volumétrie, la vitesse à laquelle ces données apparaissent et la variabilité de leurs formes, les systèmes existants jusque là, n’étaient pas à même de traiter ce que l’on a alors appelé le Big Data.

Une classification des données pour mieux s’y retrouver.

L’abondance de biens ne nuit pas, parait-il. Certainement, mais il est plus facile d’avoir une approche organisée, de classifier les différents types de données pour mieux les comprendre.

A la segmentation interne/externe, on peut ajouter une autre segmentation en fonction de la typologie des données.

Trois grandes familles de données

Tout d’abord, il existe des données qui sont vérifiées, mises à jour régulièrement et qui donc ont un caractère très prononcé de fiabilité et de véracité. Données clients, données produits, toutes les données vivantes présentes au coeur des systèmes d’information font partie de cette catégorie. Elles représentent la plupart du temps un véritable capital pour l’entreprise et elles doivent être parfaitement sécurisées. Ces données, par ailleurs, seront la base à d’éventuels enrichissements qui vont venir ajouter de la valeur : croisement avec des données géographiques, sémantiques, etc… Ce sont donc des données de référence, véritable colonne vertébrale d’un référentiel de données sur lequel s’appuieront les algorithmes et les services.

L’objectif est donc d’ajouter des données qui vont venir se connecter à cette colonne vertébrale pour, au fur et à mesure, construire un ensemble plus complet, harmonieux, apportant une nouvelle valeur.

On peut imaginer 2 grandes familles de données enrichissant les données de référence :

  1. La première est constituée des données issues naturellement de l’utilisation des processus digitaux. En effet, tout programme laisse une trace qui est un élément intéressant à prendre en compte. Les exemples les plus connus sont les cookies qui permettent de tracer le parcours des utilisateurs d’un site Web. Il est donc possible de rapprocher ces parcours clients afin de faire du marketing ciblé tel que proposer des promotions ou des produits adaptés et maximiser la valeur des commandes. Ce sont les données opérationnelles.
  2. La deuxième famille est plus diversifiée car elle concerne toutes les données que l’on peut collecter en tant que telles dès lors qu’elles peuvent apporter une valeur ajoutée. Par exemple, si à des données de commande client, des données météorologiques sont adjointes, de nouvelles offres adaptées pourront être proposées prenant en compte l’arrivée des beaux jours (ou des mauvais jours pour les plus pessimistes d’entre nous). L’éventail des données est tel aujourd’hui que les potentiels d’enrichissement sont inépuisables. En effet, toute donnée interne inexploitée, toute donnée externe pouvant avoir un intérêt, sont des candidats éligibles. Listons ci dessous les données que l’on peut regrouper par catégorie :
  • Les données produites par l’entreprise mais non utilisées pour diverses raisons : oubli involontaire (ou non d’ailleurs), complexité à les utiliser notamment à cause de leur diversité, de leur incomplétude, de leur manque de formalisme ou de structuration. Elles sont souvent nommées données dormantes ou dark data. C’est ici que se trouve la promesse la plus souvent entendue lors des cocktails dinatoires du Big Data : « Vos données ont de la valeur, vous êtes assis sur un tas d’or ».
  • Les données que l’on peut trouver sur des places de marchés où des « producteurs » de données vendent ou louent des données encadrées par des licences payantes. Il faut alors bien mesurer l’intérêt et le retour sur investissement. Données d’entreprises (informations légales et financières), données de contacts (nom/prénom, fonction, email, téléphone), données d’usage Internet (parcours, intérêts,…), données commerciales (enseigne, gamme de produits, etc…) sont autant d’exemples qui peuvent présenter un intérêt.
  • Les données des réseaux sociaux, véritablement vivantes, en perpétuel mouvement, les Social Data sont aujourd’hui incontournables pour avoir accès directement à l’information la plus fraîche.
  • Les données publiques mises à disposition par les administrations, les établissements publics et certaines collectivités territoriales, suivant une politique incitative d’ouverture et de partage des données publiques conduite par l’état depuis 2011. Cette politique est pilotée par les services du Premier Ministre et par la mission Etalab dirigée aujourd’hui par Henri Verdier. Une plateforme de diffusion sous la forme d’un portail (http://www.data.gouv.fr/fr/) a été mise en place et regroupe plus de 20 000 jeux de données. Ces données sont accessibles à tout citoyen. Il est à noter que ces données publiques ne sont qu’une partie de ce que l’on appelle l’Open Data. En effet, rien n’empêche que des organisations privées libèrent leurs propres données sous couvert d’une licence ouverte, libre et gratuite qui apporte la sécurité juridique, obligatoire quand on veut traiter des données. On trouve déjà des données de transport, mais aussi des données énergétiques, environnementales, de consommation sous ce format de licence… Partager librement ces données est un véritable levier d’enrichissement et donc de création de nouveaux services.
  • Les données venant des objets connectés, ce que l’on appelle l’internet des objets (Internet of Things ou IoT). Ces données sont collectées par des capteurs embarqués dans des objets plus ou moins communs : des montres, des ampoules, des voitures, des panneaux de signalisation routière, des compteurs électriques, des pots de fleurs, voire des dispositifs plus professionnels, etc… Cela touche donc tous les secteurs et de nombreux usages apparaissent dans la santé, les transports, l’énergie, l’agriculture, tous les processus industriels, les villes dites intelligentes (Smart City). La Smart City est d’ailleurs un bel exemple de ce qui peut être fait à l’aide des objets connectés. Les villes collectent des données provenant de la météo, du trafic routier, de la vidéosurveillance, de la consommation d’énergie afin de fournir aux citoyens de nouveaux services : meilleures conditions de circulation par la réduction des bouchons, meilleur temps d’intervention des services de secours, optimisation de l’utilisation de l’eau ou de l’énergie, etc…

Le tableau ci-dessous reprend les grandes familles de la donnée :

Données de Référence Données opérationnelles Données Tiers
Clients Consultation pages Web Dark Data
Fournisseurs Activité Service Clients Producteurs de Data
Produits Indicateurs clés Open Data
Devis/Commandes Social Data
Factures   Objets Connectés
 

 Comment tirer parti de la donnée?

Toutes ces données peuvent être considérées comme étant des données de base. Pour en tirer parti, trois challenges doivent être relevés : infographie-184x300

  1. L’organisation des données et leur gouvernance qui doit permettre d’établir les règles afin de pouvoir les utiliser dans de bonnes conditions.
  2. La création de valeur sur ces données encore un peu brutes même si elles ont été un peu travaillées afin qu’elles soient plus compréhensibles, passent par une transformation de la donnée en information. Plus cette transformation sera complexe et intelligente, plus l’information qui en résulte aura de la valeur.
  3. La démonstration de cette valeur par sa mise à disposition de la manière la plus efficace et la plus adéquate.

Nous pouvons alors sonner à la porte de la Science de la Donnée.

Nous parlerons de cela dans le prochain billet.

par ARNOLD HAINE

http://linkis.com/dataofbiginterest.com/0QHuO?platform=hootsuite#

 

Publicités