La revanche du big data : Harvard plus forte que Google pour prédire la grippe

Des chercheurs de la prestigieuse université américaine ont conçu un modèle statistique deux fois plus efficace que la méthode Google. Le géant de l’Internet avait fermé cet été son projet, dont les prédictions avaient tourné au flop.

sans-titre

C’est l’un des plus gros « fails » de Google et la preuve que le big data n’est pas encore très au point pour s’appliquer à tout sans discernement. En août, le géant de l’Internet avait discrètement enterré Google Flu Trends : lancé en 2008, ce projet devait permettre de prédire l’évolution de l’épidémie de grippe (et de la dengue) en temps réel, en s’appuyant sur les recherches sur Internet (par exemple « symptômes de la grippe », « maux de tête » et « frissons » ) et leur localisation.

Mais les résultats furent catastrophiques : en particulier, Google Flu Trends a nettement sous-estimé l’épidémie de la grippe aviaire H1N1 en 2009 et au contraire largement surestimé la grippe saisonnière de 2012-2013 aux Etats-Unis (prédisant 50% de cas de plus que constaté), comme l’avait expliqué par le menu un article dans Nature.

L'échec de Google Flu Trends

L’échec de Google Flu Trends – Nature

D’autres universitaires en avaient remis une couche l’an dernier dans une étude publiée dans Science, intitulée « La parabole de Google Flu Trends : les pièges de l’analyse big data ». 

La conclusion dans le monde scientifique avait alors été qu’il était plus efficace de poursuivre la veille de terrain en s’appuyant sur le participatif, à l’image de ce que font le réseau de médecin Sentinelles et le projet de recherche de surveillance Grippenet en France.

Le big data est mort ! Pas si vite

Une équipe de statisticiens de Harvard se targue aujourd’hui de faire beaucoup mieux que Google, avec la même approche – ou presque.

« Au moins deux fois plus précis », avancent-ils, en utilisant les données du moteur de recherche, mais en les croisant et les corrigeant avec d’autres, ce qui semble faire toute la différence.

Capture d'écran des dernières données publiques de Google sur la grippe

Capture d’écran des dernières données publiques de Google sur la grippe – Google Flu Trends

Dans une étude publiée lundi 9 novembre dans la revue de l’académie des sciences américaine PNAS – repérée par Ars Technica – le professeur Samuel Kou, qui a travaillé depuis un an sur le sujet avec un doctorant, Shihao Yang, et un maître de conférence en mathématiques, Mauricio Santillana, affirme que leur modèle, baptisé ARGO (AutoRegression with GOogle search data),

« fait mieux que tous les modèles existants de suivi en temps réel de l’épidémie de la grippe, y compris Google Flu Trends. »

Samuel Kou (au centre), le doctorant à gauche et le mathématicien à droite

Samuel Kou (au centre), le doctorant à gauche et le mathématicien à droite – Harvard Gazette/Kris Snibbe

Les bons mots-clé #oupas

Leur modèle statistique serait « flexible, robuste, auto-correctif et évolutif ». Ils reprennent les données de Google, que le groupe partage directement avec certaines institutions comme Harvard et l’hôpital pour enfants de Boston voisin, en les recroisant avec d’autres, notamment l’historique de l’agence de veille sanitaire américaine (les Centres de contrôle et de prévention des maladies, CDC), la saisonnalité des épidémies de grippe mais aussi les changements dans les comportements de recherche sur Internet, ce qui semble être le truc en plus.

Capture d'écran de l'étude publiée sur le modèle ARGO

Capture d’écran de l’étude publiée sur le modèle ARGO – PNAS

Le professeur Kou a ainsi confié à la Harvard Gazette : 

« Si je veux chercher quelque chose, je le fais mieux aujourd’hui qu’il y a deux ans. De plus, le moteur de Google évolue, de même que les interactions entre les gens et le moteur ».

On aurait donc enterré le big data un peu vite. Et l’idée même d’utiliser la foule, les recherches sur le Web pour identifier la propagation de l’épidémie n’est peut-être pas si futile.

L’équipe explique avoir corrigé des biais méthodologiques identifiés dans l’algorithme original de Google Flu Trends  : pas assez dynamique, n’intégrant pas les données révisées des CDC chaque semaine, ni la saisonnalité des états grippaux ; l’agrégation des mots clés n’était en outre pas assez précise ni évolutive. Il y a en effet des tendances dans les termes de recherche utilisés, comme ils le montraient dans la première version de leur étude en mai dernier : plutôt « poussée de fièvre » ou « grippe et médicament » fin 2009, « fièvre et toux » et « contagieux combien de temps » en 2014-15 par exemple.

Les termes employés dans les recherches correspondant à des périodes d'épidémie, capture d'écran de l'étude ARGO mai 2015

Les termes employés dans les recherches correspondant à des périodes d’épidémie, capture d’écran de l’étude ARGO mai 2015 – Harvard

La méthode ARGO bat ainsi à plates coutures Google Flu Trends (GFT) et les autres selon les stats produites par les chercheurs sur le coefficient de corrélation :

Capture d'écran de l'étude ARGO mai 2015

Capture d’écran de l’étude ARGO mai 2015 – Harvard

Les chercheurs ne veulent pas garder leur trouvaille pour eux : ils travaillent sur l’ouverture de leur modèle statistique, qu’ils veulent rendre open source et disponible au plus grand nombre. Avoir la bonne information à temps permet aux pouvoirs publics de mieux préparer la campagne de vaccination et d’éviter les pénuries de vaccins. Or la grippe tue environ 500 000 personnes dans le monde chaque année. En France, une épidémie particulièrement virulente a entraîné une surmortalité hivernale record de 18 300 décès l’an dernier selon l’InVS.

http://rue89.nouvelobs.com/2015/11/11/revanche-big-data-harvard-plus-forte-google-predire-grippe-262043

Publicités