Et si le big data était aussi dangereux que le nucléaire ?

C’est la question iconoclaste que pose Maciej Ceglowski, le fondateur de Pinboard. Les parallèles sont simples. Les traces que les utilisateurs laissent derrière eux sont radioactives, elles continuent à pouvoir avoir un effet négatif jusque des années plus tard. Il soulève l’idée que de nombreuses données produites échappent à toute forme de contrôle sérieux. Elles sont échangées, modifiées, revendues. Mais surtout, comme les déchets nucléaires, elles restent.

image

https://youtu.be/GAXLHM-1Psk

Les opinions ou les traces que les gens laissent aujourd’hui sont peut-être légitimes, mais que se passerait-il si elles devenaient punissables dans 10 ou 20 ans. C’est ce qu’on découvert les artistes hollywoodiens progressistes lors de l’émergence du maccarthysme. Ce sont leurs comportements passés qui ont été jugés et examinés. Que ce serait-il passé si on avait eu accès au détail des correspondances de Charlie Chaplin sur gmail, ou de ses DM sur Twitter? De la même façon, imaginons un russe gay qui ouvre un journal anonyme sur livejournal en 2017, mais qui voit cette société se faire racheter dix ans plus tard par une société russe alors que l’homosexualité est plus durement réprimée dans son pays?

Science-Fiction? Comme l’a repéré Antonio Casili, la police américaine commence justement à demander à disposer des données génétiques de certains clients de Ancestry.com et 23andMe afin de savoir s’ils auraient des correspondances avec des traces retrouvées sur des scènes de crime. Quelle bonne surprise pour tous ceux qui leur avaient envoyé un échantillon de salive pour savoir à quelles maladies génétiques ils devaient se préparer avec leur famille.
L’industrie des données et du Big Data est peut-être utile, mais de nombreux usages . Elle est dangereuse, et l’incapacité de ses acteurs à faire la différence entre ce qui bien, ce qui est mal, et ce qui est futile ne rend pas forcément optimiste.
L’analyse de Maciej Ceglowski est radicale. Ses conseils sont les suivants:
ne pas collecter les données, dans de nombreuses situations elles ne servent à rien
si on doit absolument les collecter, ne pas les stocker et privilégier un traitement en temps réel
si on doit absolument les stocker, ne pas le faire n’importe où et ne pas les laisser traîner sur des serveurs de tiers comme Amazon S3
De toute façon, le modèle actuel dans lequel on essaie de conserver le maximum de données pendant le maximum de temps n’est pas tenable. Comme pour les accidents nucléaires, la question n’est pas de savoir si des accidents vont se produire, mais de savoir quand.

Lors des travaux du Conseil National du Numérique, j’avais eu l’occasion de proposer une durée de péremption pour les données, c’est-à-dire une date à partir de laquelle il est nécessaire de redemander l’autorisation de l’utilisateur pour continuer à les utiliser. Sans cette autorisation supplémentaire, les données devraient être effacées. Visiblement, je ne suis pas le seul à y penser.
Si on reprend l’analogie avec le nucléaire, il est urgent de réfléchir à créer une sorte de demi-vie pour les données afin de leur permettre de se dégrader et de disparaître au fil du temps.
Update : excellent article de Boing Boing sur la façon dont les sites qui agrègent des  données finissent toujours par les diffuser que ce soit aux forces de l’ordre, au cours de procès entres individus (Facebook est de plus en plus exploité dans les divorces), à des criminels.

Jean-Baptiste Soufron
http://m.huffpost.com/fr/entry/8329514?ncid=tweetlnkfrhpmg00000001

Publicités