6 Questions pour tout savoir sur le Data Lake

Discovery_WebBanners

1 – C’est quoi un Data Lake ?

Le Data Lake est une réponse technologique au Big Data. Les entreprises engagées dans la transformation numérique agrègent de grandes quantités de données avec des formats très divers selon leur contenu et leur provenance.

Le Data Lake permet de créer et de gérer dans un espace de stockage unique toutes ces données ; qu’elles soient structurées, comme celles issues d’un ERP par exemple, ou non structurées comme celles provenant du web, des applis mobiles, des réseaux sociaux…

Le Data Lake propose une nouvelle approche du stockage : banaliser l’accueil de toutes les données sans distinction de format, sans limite de quantité et avec la capacité de les analyser à tout moment.

En fait, un Data Lake c’est comme une “auberge espagnole” mais pour les données : il héberge tous les types de données – structurées ou non.

Le Data Lake supprime les silos verticaux en accueillant tous les formats de données sur le même plan : des données CRM et ERP comme des données aux formats texte, audio, photo, etc. ou encore celles issues de Facebook ou Twitter. Avec un Data Lake, on passe d’une architecture de stockage verticale – composée de silos de données avec des formats spécifiques – à une architecture horizontale. Le Data Lake est approvisionné par autant de « rivières » que le nombre de sources de données disponibles.

2 – Quelle est la différence avec un Data Warehouse ?

La différence avec un data Warehouse c’est que Le Data Warehouse est un élément du Data Lake. Le Data Warehouse agrège uniquement les données structurées qu’on appelle ‘legacy’ comme par exemple le  CRM et des bases de données. Le Data Warehouse est un espace de stockage vertical venant alimenter le Data Lake.

3 – Le Data Lake s’adresse-t-il à tout le monde ?

Le Data Lake s’adresse à toutes les entreprises qui ont une problématique de stockage et d’analyse de données. La taille de l’entreprise n’est pas un critère pertinent, mais son secteur d’activité en est un.

Les organisations les plus demandeuses de Data lake sont souvent celles du BtoC, et qui par essence ont un grand nombre de clients mais pas que, enfin celles qui génèrent de gros volumes de données structurées non structurées.

C’est le cas de la banque/assurance, des transports… des activités de service en général, la grande distribution, les biens de consommation et même les collectivités locales…

Prenons 2 exemples : le cas d’un opérateur de transport – train ou  bus. Celui-ci possède déjà les données du ‘legacy’, les données internes du CRM ou de l’ERP, l’état civil des voyageurs… Grâce au Data lake, ils vont pouvoir collecter les données issues des objets connectés, comme le portique de sécurité, les itinéraires renseignés par les utilisateurs via leur application web ou mobile, ce qui permet de mieux comprendre leurs profils et leurs comportements.

2e exemple : prenons la grande distribution, le cas d’une enseigne qui a besoin d’avoir une vue à 360 degrés de ses clients. En corrélant les données internes (de son ‘legacy’) aux données issues de blog et de réseaux sociaux, on permettra à cette enseigne d’avoir une vue globale de ses clients, anticiper son comportement d’achat, comprendre ses envies et proposer des promotions plus pertinentes qu’avant.

4 – Comment se compose l’architecture d’un Data Lake ? 

Un Data Lake est un espace de stockage unique associé à des outils d’analyse type Big Data : c’est l’entrepôt de toutes les données de l’entreprise. Il est alimenté par toutes les  données métier – ERP, CRM, Bases de données, etc – et les données brutes, par exemple celles provenant de son site web, de ses comptes de réseaux sociaux, etc. A terme il peut même se substituer à certaines briques du système d’information traditionnel.

Le cœur de l’architecture d’un Data Lake c’est une solution de stockage accessible simultanément par des protocoles d’échange de données dont HDFS (Hadoop) qui est la porte d’accès aux outils Big Data. Il y a de nombreux outils d’analyse disponibles sur le marché. Ils évoluent rapidement car majoritairement animés par la communauté Open Source.

5 – Comment créer son architecture de Data Lake ?

En fait il faut partir du besoin de l’organisation, ça peut être plus de volumétrie, la recherche de performance. La clef est de choisir un socle technique basée sur un stockage Scale Out. Cette approche permet d’accompagner au plus juste l’évolution du besoin de l’entreprise sans jamais  remettre en cause l’investissement initial, ni se retrouver face à des limitations.

Grâce à son architecture, le Data Lake permet aux solutions du Big Data de pouvoir faire in situ des requêtes sans bouger la donnée ou la modifier.

6 – Quels sont les avantages d’un Data Lake ?

Le Data Lake crée de la valeur : il permet de  personnaliser l’offre pour chaque client et anticiper leurs besoins. Il valorise le patrimoine historique des données de l’entreprise pour de nouveaux projets.

A termes, il fournit l’agilité requise par les métiers pour réduire le time-to-market de leurs projets et permet ainsi de renouer la collaboration avec la DSI.

 

par Jacques Michel
Publicités