Big Data et Machine Learning

image

Les raisons de l’émergence du Big Data sont bien connues. Elles sont d’abord économiques et technologiques. La chute exponentielle des coûts de l’espace de stockage et de la CPU intervenue au cours de ces vingt dernières années en est la cause première.Plus récemment, au cours des dix dernières années, les géants du Web tels que Google , LinkedIn , Facebook et Yahoo! ont été amenés à développer pour leurs propres besoins de nouvelles technologies : systèmes de stockage distribués à l’échelle du pétaoctet, traitements massivement parallèles et valorisation des données non structurées. Simultanément les méthodes mathématiques et statistiques et les algorithmes sophistiqués qui sont au cœur de l’analyse prédictive ont pris un essor considérable. Big Data et machine learning sont les deux faces de la révolution de la donnée. Ces innovations ont par la suite essaimé dans le monde open source, très souvent avec le concours des mêmes acteurs du Web, les rendant ainsi disponibles à toutes les organisations. Cette démocratisation des technologies Big Data a par ailleurs largement bénéficié des services cloud, l’entreprise cliente n’ayant plus à prendre à sa charge la mise en place d’une infrastructure d’exécution et de stockage lourde et coûteuse. Dans le sillage de cette effervescence technologique ont fleuri toute une série d’annonces vantant les mérites de telle ou telle solution supposée tout stocker puis tout analyser. Profondément enfouis dans les logs des serveurs web des sites e-commerce ou dans les commentaires laissés par des myriades d’internautes sur les réseaux sociaux, se tapiraient de colossaux gisements de données non structurées qui nedemanderaient qu’à être exploités. Les grandes entreprises ont progressivement pris conscience du potentiel de création de valeur que leur apportaient ces nouvelles technologies du Big Data, appliquées en particulier à la masse croissante de données, structurées et non structurées, qu’elles peuvent mobiliser sur leurs clients. Mieux connaître ces clients, comprendre leurs comportements et leurs attentes, anticiper leurs réactions permet de les fidéliser et de leur faire les offres personnalisées les mieux adaptées. C’est un enjeu majeur pour toutes les entreprises. Dans la révolution numérique en cours, la valorisation de l’information est donc au cœur de la stratégie des grands groupes. Cette valorisation est d’autant plus complexe que l’entreprise est désormais étendue. Elle est immergée dans un écosystème informationnel qui dépasse de loin ses frontières traditionnelles et qui inclut ses clients mais aussi ses fournisseurs, ses partenaires et les territoires sur lesquels elle intervient. L’information traverse l’entreprise au rythme de la transformation numérique. Ces échanges se vivent de manière de plus en plus naturelle, sans pour autant que les flux de données soient pleinement valorisés. Extraire de manière pertinente la valeur de l’information repose en effet sur la capacité à capter le sens des données en les contextualisant de manière très ciblée. Pourtant passer du « tout stocker »au « tout analyser » n’est pas toujours possible, d’autant plus que les écueils sur la route ne sont pas uniquement technologiques. Des mutations sont à prévoir impliquant des redistributions du pouvoir au sein des organisations et l’apparition de nouveaux métiers au premier rang desquels celui de data scientist. Dans cette nouvelle configuration, l’audace et la volonté d’innover en brisant les silos et en faisant travailler ensemble les différentes équipes de l’entreprise sont au cœur de la valorisation de la donnée. C’est le pari réussi des grands acteurs du Web et ce sera aussi celui des entreprises performantes de demain qui seront capables de se transformer pour innover. Le présent ouvrage fournira au lecteur des éléments d’appréciation factuels qui lui permettront de se forger sa propre opinion. Quelles sont les données qui relèvent effectivement du Big Data ? Quelles sont les compétences à développer pour pleinement tirer parti de ces outils ? Quels seront les impacts du Big Data au niveau de l’organisation de l’entreprise ? Voilà autant de questions auxquelles les auteurs se proposent d’apporter des réponses argumentées. La difficulté pour présenter un sujet aussi protéiforme que le Big Data, où il est question aussi bien de nouveaux usages, de nouvelles technologies que de nouveaux métiers est d’éviter le syndrome de l’inventaire à la Prévert. Dresser un catalogue des technologies actuelles est certes possible, au risque cependant d’être sanctionné par une obsolescence à brève échéance …. et au prix aussi d’un considérable ennui pour le lecteur. Le parti pris des auteurs du présent ouvrage est de présenter les outils et les méthodes du Big Data sous un angle spécifique, celui de l’analyse prédictive. Comment peut-on exploiter des données massives pour construire des modèles prédictifs de comportements humains, de prix ou de phénomènes sociaux ? Ainsi, ce qui est perdu en exhaustivité est gagné en clarté et en structuration du propos. Un accent particulier est mis sur la définition du métier de data scientist, dont les contours sont encore flous. Les chapitres de présentation concrète des outils de base du Big Data, comme les composantes de l’écosystème Hadoop, alternent avec des chapitres plus conceptuels sur des questions fondamentales. Pourquoi les systèmes relationnels ne suffisent-ils plus ? Selon quels principes faut-il représenter les données multidimensionnelles du Big Data ? Quel est le prix à payer pour automatiser la mise en parallèle de traitements au moyen de MapReduce ? Ce livre sera particulièrement utile à toute personne, ingénieur IT, architecte, DSI qui souhaite avoir une vue globale du Big Data dans le contexte de l’analyse prédictive. Aux profils plus techniques il fournira une bonne introduction,intuitive et sans formalisme, aux principaux concepts du machine learning , leur permettant d’aborder ensuite les ouvrages plus spécialisés.

Michel Delattre DSI du Groupe La Poste

Copyright Dunod, 2015 ISBN : 9782100723935
Toutes les marques citées dans cet ouvrage sont des marques déposées par leurs propriétaires respectifs. Data Science Studio est une marque déposée de Dataiku. Illustration de couverture : Toronto skyline, Canada © Beboy, Fotolia.com © Dunod, 2015 5, rue Laromiguière, 75005 Paris http://www.dunod.com

Publicités