Métadonnées : plus riches que prévues

image

Ce ne sont que les métadonnées entend-on dire souvent mais en fait leur collecte et leur traitement permettent de révéler des informations personnelles très précises.

D’un côté les données et de l’autre les métadonnées, c’est-à-dire les données sur les données. Les premières sont riches et à contenu riche, les secondes ne permettent restent impersonnelles et ne permettent que de construire des statistiques globales. Il y a trois ans, Edward Snowden avait alerté des agissements de la NSA et de la surveillance de masse à laquelle procédait l’agence américaine collectant quotidiennement l’ensemble des métadonnées liées aux communications mobiles notamment. Depuis, la NSA s’échine à expliquer qu’il ne s’agit que des métadonnées qui ne revêtent aucun caractère privé mais, qu’en revanche, elles sont une source précieuse de lutte contre le terrorisme.

Une équipe de l’université de Stanford vient de publier les résultats d’une étude concernant la collecte et le traitement de métadonnées de 800 utilisateurs de smartphones pendant plusieurs semaines, au total les logs sur quelque 250 000 appels et 1,2 million de SMS. Les métadonnées concernent la durée des appels, les numéros appelés, les heures d’envois de SMS… Les chercheurs ont utilisé des technologies courantes et peu chères et des procédures manuelles simples pour réaliser ce travail.

Le résultat est plus que surprenant et montre qu’il est possible, contrairement à ce qu’affirme la NSA, de révéler des informations très personnelles et précises sur des individus. En regroupant des données liées à des appels à un cardiologue, à une pharmacie et à une hotline pour personnes utilisant un appareil de suivi cardiaque a pu conclure avec un niveau de confiance élevé qu’une personne souffrant d’arythmie. Elle a pu également conclure qu’une autre personne détenait une arme semi-automatique en se basant sur de nombreux appels à un armurier local faisant une large publicité et à une hotline client d’un fabricant d’armes. Dans d’autres, il a été possible d’identifier que des femmes étaient enceintes.

A l’inverse, les analyses automatiques ont été moins précises et non pu par exemple déterminer la ville de résidence de participants que dans près de 60 % des cas. Dans 90 % des cas, il a été possible de connaître la localisation dans un rayon de 80 km de leur domicile.

Cette enquête a également montré qu’un groupe important de personnes pouvaient être intégrés dans un même filet de surveillance. Lorsque la NSA examine les métadonnées associées communications d’une personne suspecte, elle peut alors suivre ce que l’environnement de cette personne à deux degrés (« two-hop » net). Le suspect A appelle une personne B qui, elle-même, entre en contact avec une personne C. En combinant l’ensemble de ces données, les chercheurs ont démontré la possibilité de surveiller jusqu’à 25 000 personnes. On connait bien ces phénomènes depuis les études sur ce que l’on appelle le petit monde et la théorie des six degrés de séparation.

Dans un communiqué publié par l’université de Stanford, l’un des trois auteurs de l’étude se déclare fortement surpris par la précision des résultats obtenus avec l’utilisation de ces métadonnées. « Il semble néanmoins intuitif que les contacts de toute personne – personnels ou professionnels – avec qui vous communiquer donne des informations. Mais quand vous observez comment il est possible d’inférer la situation médicale d’une personne alors que ce sont là des informations très personnelles, c’est très intéressant » commente Patrick Mutchler, l’un des trois auteurs de l’étude. Et ces résultats ont été obtenus avec des moyens relativement basiques. On imagine aisément ce que des institutions comme la NSA peuvent faire.

Ces résultats pourraient donc servir de nouvelles bases de discussion sur les règles d’utilisation des métadonnées comme par exemple réduire la durée de leur sauvegarde de 5 ans à 18 mois. Ou d’autoriser des investigations de deux degrés à partir d’une personne suspecte et non trois. Bref, cette enquête pourrait être bien utile pour modifier les législations de protection de données personnelles.

Par Guy Hervier
http://www.informatiquenews.fr/dossier-big-data-15-metadonnees-plus-riches-prevues-47142

Publicités