Le Big Data remplacera-t-il un jour les sondages ?

Le Big Data serait capable d’aider la police de Los Angeles à réduire la criminalité. On le dit en mesure de rendre les villes plus intelligentes, et certains voient même en lui une alternative crédible aux politiques contraignantes pour lutter contre les dérèglements climatiques (1). Pourquoi le Big Data, en apparence tout puissant, n’a-t-il pas encore « uberisé » l’industrie du sondage ? Leonardo Noleto, Data Scientist, Guillaume Pataut, mathématicien, et Guilhem Fouetillou, cofondateur de la startup Linkfluence (spécialisée dans l’écoute du web social pour les marques) et professeur associé à Science Po Paris, livrent leur avis sur la question.

image

Le Big Data est-il capable de ringardiser les sondages tels qu’on les connaît, soit une panoplie de méthodes mathématiques qui permettent de connaître l’opinion d’un groupe de personnes en généralisant à partir d’un sous-ensemble ? « C’est une question complexe », prévient Leonardo, suggérant que la réponse pourrait bien se trouver quelque part entre Angers, la tranquille capitale de l’Anjou, et les États-Unis.

Sondage et Big Data : des méthodes complémentaires ?

Si les habitants d’Angers n’avaient pas validé les concepts des canettes de 15 cl de Coca-Cola, celui des Kinder Pingui ou encore le débarquement du fromage Philadelphia dans l’Hexagone, ces produits n’auraient probablement jamais été commercialisés en France. Avec une population de 400 000 habitants, la préfecture du Maine-et-Loire est connue par les marques du monde entier pour être très représentative de la France moyenne et, donc, des attentes des consommateurs (2). Le phénomène, qui dure depuis plus de 20 ans, est savamment exploité par deux sociétés : MarketingScan (du groupe GfK-Médiamétrie) et Scannel (Kantar Worldpanel). Une startup, CityPanel, s’est même créée dans la ville en 2013, avec pour ambition d’étendre aux services numériques (applications mobiles, sites web, objets connectés…) les tests soumis au prophétique panel angevin.
De l’autre côté de l’Atlantique vit Nate Silver, un statisticien spécialisé dans les calculs de statistiques sportives. La prévision des résultats des matches et des possibles évolutions de carrière des joueurs de la Ligue majeure de baseball a été son gagne-pain au début des années 2000. Mais ce sont des analyses politiques sur les élections présidentielles américaines de 2008 qui l’ont fait connaitre. Publiées sur FiveThirtyEight.com (blog ensuite affilié au New York Times), ses prévisions ont frappé par leur exactitude : Nate Silver avait prédit le vainqueur dans 49 des 50 états, et anticipé la victoire de Barack Obama plusieurs mois avant qu’elle n’advienne. Son secret ? Avoir utilisé le Big Data… pour pondérer les prévisions des instituts de sondage traditionnels (3).
« Comme le suggère Nate Silver, sondages et Big Data peuvent être complémentaires, analyse Leonardo. » Le cas de de la ville d’Angers, devenue la Pythie de l’industrie agroalimentaire, montre quant à lui que les méthodes statistiques, affinées par des dizaines d’années de pratique, sont encore pertinentes. « En fonction du budget disponible, de la taille de la population à étudier, du taux de réponse moyen constaté et de la marge d’erreur acceptée par le commanditaire, des modèles mathématiques permettent de déterminer avec précision la taille et la composition de l’échantillon à sonder pour obtenir des résultats représentatifs », complète Guillaume. « Et n’oublions pas que les sondages ne sont qu’une méthode d’observation de la société, parmi beaucoup d’autres : la sociologie, l’ethnographie… ou encore la statistique nationale, basée sur le recensement exhaustif de la population. Un domaine dans lequel la France était très en pointe, avec la création de l’INSEE en 1946 (4) », rappelle Guilhem.

Le Big Data intéressant pour capter les signaux faibles et passer d’une catégorisation socio-professionnelle à une catégorisation socio-affinitaire

L’intérêt du Big Data réside dans sa capacité à capter les tendances émergentes. À produire des hypothèses inédites. À répondre à des questions que l’on ne se serait jamais posées. « Plus de données ont été collectées en 2011 qu’entre l’invention de l’écriture et cette année-là, rapporte Guilhem, citant le projet Global Pulse de l’ONU. Et la quantité s’est largement accrue ces dernières années. Entendons-nous d’abord sur ce que recouvre le terme Big Data. Pour Linkfluence, c’est la possibilité de capter et analyser ce que les utilisateurs expriment, commentent ou « likent » volontairement sur Internet (données déclaratives), mais aussi ce qu’ils font (observation des usages). Le Big data constitue un nouveau prisme à travers lequel observer la société, qui possède l’avantage de ne rien présupposer. » À l’inverse du sondage, dont la méthodologie peut introduire un biais. Comme le soulevait Pierre Bourdieu dans son exposé L’opinion publique n’existe pas (1972), « Dans le simple fait de poser la même question à tout le monde se trouve impliquée l’hypothèse qu’il y a un consensus sur les problèmes, autrement dit qu’il y a un accord sur les questions qui méritent d’être posées. » (5) Dans quelle mesure, en effet, le sondage contribue-t-il à forger l’opinion qu’il prétend sonder ?
« Le Big Data permet de recueillir les données sans dispositif voyant, et sans l’influence de l’observateur, rapporte Guilhem. Les sondeurs ont tous en tête ces fameuses expériences montrant combien le sexe, l’âge, ou encore la beauté d’un enquêteur peut altérer la sincérité des réponses, notamment celles des hommes à propos de leur niveau de vie face à une enquêtrice. » « Les sondages travaillent à partir de données « provoquées », abonde Leonardo. Le Big Data constitue un changement de paradigme, en permettant d’explorer des données collectées sans but prédéfini, et des traces laissées par les internautes sans qu’ils en aient toujours conscience – ce qui soulève d’évidentes questions éthiques sur le consentement des internautes, la propriété des données, leur croisement, leur revente. » (6) « Chez Linkfluence, qui propose des outils de monitoring et d’analyse du web social pour les marques, on a coutume de dire que l’on n’écoute que ceux qui veulent être entendus. C’est-à-dire ceux qui s’expriment sur les espaces publics du web. Mais les interactions sur les réseaux sociaux, le fait de liker un contenu sur Facebook ou de suivre tel compte sur Twitter donne des informations précieuses sur vos centres d’intérêt : click is the message. L’époque où 1 % des internautes produisait 99 % du contenu est révolue. Nous avons accès à une conversation globalisée, en temps réel, dans des volumes inédits. Le Big Data permet de passer d’une catégorisation par CSP – qui postule que les catégories socio-professionnelles ont des comportements homogènes – à une classification par affinité, plus proche de la réalité. C’est pourquoi l’étude du web social est devenue pertinente, à la condition de prendre en considération le fait que les internautes se mettent en scène. Rappelez-vous l’adage : “On the Internet, nobody knows you’re a dog”. La posture que l’on peut adopter sur le web altère le niveau de confiance dans les données recueillies sur certains sujets, par exemple dans le cadre d’une étude à propos d’une marque employeur. Mais l’absence de dispositif permet de gagner en spontanéité. »

par Hugo Bonnaffé
la suite https://www.ovh.com/fr/news/articles/a2055.idees-big-data-remplacer-sondages?pk_campaign=twitter&pk_kwd=news-fr

Publicités