La donnée « non-personnelle » (anonyme) existe-t-elle ?
Publié le 01/08/2019 par Olivia Guerguinov, Etienne Wery , Thierry Léonard
Des chercheurs annoncent avoir mis au point un algorithme qui remet (une fois de plus) en cause le principe même de l’anonymat. Une donnée anonyme est-elle une simple vue de l’esprit ? L’enjeu est fondamental car le GDPR ne s’applique que s’il y a un traitement de … données à caractère personnel. Ce qui suppose que certaines données n’ont pas cette caractéristique. Que faire dès lors si la donnée « non-personnelle » (anonyme ou anonymisée) ne correspond en réalité à rien ?
Les données non-personnelles échappent au GDPR
Le principe est le suivant : les régimes de protection des données (dont le Règlement général sur la protection des données, en abrégé « GDPR ») s’appliquent dès lors qu’il y a un traitement de … données à caractère personnel.
A l’inverse, un traitement qui ne porte pas sur des données personnelles échappe aux réglementations en la matière.
D’où l’idée de « rendre les données anonymes » pour se soustraire aux obligations légales.
En pratique, il existe différentes techniques d’anonymisation (la « k-anonymisation », la «l-diversité », la « confidentialité différentielle », etc.(pour en savoir plus ou comprendre comment fonctionnent ces méthodes : avis 05/2014 du 10 avril 2014 sur les techniques d’anonymisation). Quel avocat n’a connu cette situation embarrassante d’avoir à expliquer à un client convaincu qu’il échappe au GDPR, que le seul fait d’avoir remplacé le nom de famille par des initiales ne lui permet pas d’échapper à la rigueur de la loi ?
L’anonymisation est-elle un leurre ?
Déjà en 2014, le CEPD (« Comité Européen de Protection des Données », anciennement « Groupe Article 29 ») affirmait que le risque d’identification était inhérent aux techniques d’anonymisation (cf. avis 05/2014 du 10 avril 2014 sur les techniques d’anonymisation).
En 2015, une étude publiée dans le magazine « science et vie », révélait d’ailleurs comment des informaticiens étaient parvenus à retrouver l’identité de personnes au départ de quelques informations supposément « anonymes » gérées et transmises par les banques, et plus spécialement celles en lien avec des transactions effectuées au moyen d’une carte de crédit. Ces informations n’indiquaient ni le nom, ni le numéro de carte, ni l’adresse ou l’heure exacte de la transaction : seulement le montant de la transaction, le type de magasin (sport, vêtements, restaurant, etc.) et un numéro représentant chaque personne. Grâce à ces informations, les mathématiciens du M.I.T disposaient pour chaque personne d’un « schéma de dépenses ». A partir de là, ils ont pu identifier les personnes concernées en corrélant ces mêmes informations avec d’autres (disponibles sur la toile (Facebook, etc.) ou obtenues en piratant des sites Internet). Selon les chercheurs, pour pouvoir associer 90% des schémas de dépenses à des personnes identifiées, il a suffi à l’algorithme de disposer (grâce aux fuites de sites) d’informations sur seulement quatre lieux où s’était rendue cette même personne dans d’autres circonstances ». Surprenant, non ?
Ce risque de ré-idenfier précisément les individus au sein de bases de données « anonymisées » se confirme aujourd’hui. Une étude publiée récemment par des chercheurs de l’UCLouvain et d’Imperial College London démontre qu’un bon algorithme permet de retrouver n’importe qui (cliquez ici pour accéder à l’étude complète).
Un nouvel algorithme enfonce le clou
Les chercheurs de l’UCLouvain et d’Imperial College London ont récemment annoncé avoir développé un algorithme qui permet d’évaluer le probabilité pour une combinaison de caractéristiques connues (par exemple la date de naissance, le lieu de résidence, le sexe, etc.) d’être suffisamment précise pour décrire un seul individu parmi plusieurs milliards de personnes. En d’autres mots cela signifie qu’on peut estimer, avec précision, si des données « ré-identifiées » appartiennent à la bonne personne ou non.
L’un de ces chercheurs (Luc Rocher) l’explique d’ailleurs: « Beaucoup de personnes vivant à New York sont des hommes et ont la trentaine. Parmi elles, beaucoup moins sont également nées le 5 janvier, conduisent une voiture de sport rouge, ont deux enfants (des filles) et un chien » (cf. le communiqué de presse de l’UCLouvain).
Résultat ? Grâce à cet algorithme, les chercheurs ont montré qu’avec 15 attributs démographiques, il était possible de ré-identifier précisément 99,98% des Américains dans n’importe quelle base de données, avec des chiffres similaires à travers le monde (16 attributs en ajoutant la nationalité).
Pour vous aider à mieux comprendre les caractéristiques qui rendent les individus uniques dans les bases de données, nous vous invitons à aller faire un tour sur leur outil de démonstration en ligne.
Conclusion
Des données peuvent-elles vraiment devenir à 100% anonymes ?
L’enjeu est majeur non seulement pour les personnes concernées et les responsables de traitement, mais aussi pour le législateur qui a conçu la logique du RGPD sur une summa divisio : le règlement ne s’applique qu’aux traitements de données personnelles. Pour le dire autrement : si toutes les données sont potentiellement personnelles, parce qu’une donnée anonyme est une vue de l’esprit, la logique même du règlement est ébranlée.
Pour l’instant, on continuera de fonctionner sur la base de la définition actuelle telle qu’interprétée par la CJUE, qui implique de vérifier in concreto s’il est raisonnablement possible que la donnée puisse permettre l’identification d’une personne.
Telle est bien la substance de l’arrêt Breyer rendu en matière d’adresse IP : « l’article 2, sous a), de la directive 95/46/CE (…) doit être interprété en ce sens qu’une adresse de protocole Internet dynamique enregistrée par un fournisseur de services de médias en ligne à l’occasion de la consultation par une personne d’un site Internet que ce fournisseur rend accessible au public constitue, à l’égard dudit fournisseur, une donnée à caractère personnel au sens de cette disposition, lorsqu’il dispose de moyens légaux lui permettant de faire identifier la personne concernée grâce aux informations supplémentaires dont dispose le fournisseur d’accès à Internet de cette personne ».