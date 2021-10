Big Data et Open Data une combinaison dangereuse ?

Bien qu'au cœur de nos vies quotidiennes, aucune définition universelle du Big Data n'existe[2]. Dès lors, celui-ci relève plutôt d'un concept en constante évolution que d'une notion aux contours bien arrêtés. Cet objet complexe et polymorphe se caractérise tout d'abord par les informations produites par chaque individu dit « connecté » et les données qui le caractérisent : messages envoyés, vidéos publiées, signaux GPS, enregistrements transactionnels d'achats en ligne, etc., ce qui représente chaque jour une production mondiale moyenne de 2,5 trillions d'octets de données. Dans un pays où les déclarations fiscales se font désormais uniquement en ligne, dire que chacun d'entre nous doit se sentir concerné est un euphémisme.

Le Big Data repose donc sur la collecte de données qui résulte soit d'une collecte légale telles que les déclarations fiscales, les données de santé requises par les organismes de sécurité sociale, les enquêtes administratives ou judiciaires, etc. ; soit d'une collecte privée via l'utilisation de sites internet ou d'applications. Si le Big Data ne saurait être un danger en lui-même, combiné avec l'Open Data il n'en est pas de même.

L'Open Knowledge Fundation nous offre, en 2005, une définition[3] normalisée de la notion : des données auxquelles n'importe qui peut accéder et que tout le monde est en mesure d'utiliser ou de partager. Les critères essentiels de l'Open Data sont la disponibilité, la réutilisation et la distribution, ainsi que la participation universelle. Le cumul de ces trois critères permet l'interopérabilité, c'est-à-dire la capacité à mélanger différents ensembles de données, indispensables pour la communication et pour l'optimisation de l'ensemble des bénéfices de l'Open Data. À titre d'exemple, le Royaume-Unis a eu recours à l'Open Data pour son projet « Where does my money go » permettant aux contribuables de voir à quel usage est consacré par le gouvernement l'argent issue des diverses taxes.

L'essence du danger que peuvent présenter ces deux technologies résident en leur combinaison : ensemble elles font émerger des risques nouveaux qui leur sont propres. En effet, contrairement aux précédentes révolutions industrielles, les risques dont il est question ici requièrent toute l'attention des citoyens en ce qu'ils s'immiscent directement dans leur vie privée de manière silencieuse et universelle. Il est en effet difficile à concevoir qu'une simple déclaration d'impôt, un « like », ou encore le recours à des logiciels de stockage en ligne puissent exposer la vie privée des citoyens, qui ne voient en eux que la suite logique de l'évolution technologique de notre société.

L'encadrement juridique des données personnelles, une protection efficace ?

Qu'il s'agisse du législateur national ou européen, la volonté est la même : protéger les données personnelles tout en permettant leur expansion et leur exploitation. Le Règlement Général sur la Protection des Données (« RGPD ») et la loi du 6 janvier 1978, dite « Informatique et libertés », considèrent l'anonymat comme la clef pour protéger les citoyens tout en préservant l'économie numérique.

Le RGPD, entré en application le 25 mai 2018, permet de garantir un certain nombre de droits aux utilisateurs tels que la demande de consentement préalable obtenu de manière licite pour la collecte et le traitement de données à caractère personnel ; un droit d'écoute quant à la suppression des données personnelles dans les plus brefs délais ; un droit à la portabilité des données afin de mieux gérer la vie privée sur l'internet et les réseaux ; etc. Enfin, le règlement encadre strictement le traitement des données, qui ne peut être licite que s'il remplit l'une des conditions suivantes : le consentement a été obtenu de la part de l'auteur des données ; le traitement résulte d'un contrat ; le traitement résulte d'une obligation légale ; le traitement est nécessaire à la sauvegarde des intérêts vitaux de la personne ou d'un tiers ; le traitement entre dans le cadre d'une mission d'intérêt public ou relevant de l'exercice de l'autorité publique ; ou encore le traitement est nécessaire aux fins des intérêts légitimes poursuivis par le responsable du traitement.

Il résulte de l'application du présent règlement qu'en apparence l'utilisateur est protégé de toute utilisation frauduleuse de ses données et que sa vie privée s'en retrouve également préservée. En effet, le RGPD décrit[4] des processus d'échantillonnage et d'anonymisation des données qui demandent de supprimer les caractères d'identification telles que les noms et les adresses électroniques, afin que les personnes ne puissent pas, en théorie, être identifiées. Une fois ce traitement effectué, lesdites données ne sont plus soumises aux lois les protégeant initialement. Dès lors, les données peuvent être vendues - qu'importe leurs sources de collecte - pourvues qu'elles soient disponibles, et ce quel que soit l'usage destiné.

Les données personnelles, une source silencieuse de matière première ?

Néanmoins, l'anonymat reste dans la pratique un leurre[5]. Si, sous la couverture de celui-ci, le traitement et la divulgation des données est légal, compte tenu de la masse de données personnelles produites par chaque individu, une ré-identification est possible réduisant à néant l'anonymisation. En effet, des études[6] ont mis en avant que l'apprentissage automatique des logiciels permet une ré-identification des utilisateurs via le croisement de plusieurs informations. Ainsi, ont pu être ré-identifiés les dossiers médicaux dépersonnalisés de 10 % de la population rendus publiques par le ministère australien de la santé[7] ; des individus dans des trajets de taxi anonymisés à New York[8]; des individus sur des trajets de vélo en libre-service à Londres[9]; des individus à compter d'ensembles de données de téléphones mobiles et de cartes de crédit[10]; etc.

Dès lors, la pratique suggère que non seulement les données sont une source de matière première issue d'un travail gratuit de la part de ses utilisateurs ou contribuables, mais également que l'anonymat promu par les législations en vigueur et conditionnant la vente de données personnelles, est inefficace face à des technologies dont la performance et le développement sont exponentiels et échappent à tout contrôle légal. De plus l'article 6 prévu au RGPD permet, via l'identification d'un « intérêt légitime », le traitement des données personnelles sans consentement préalable. Seul doit être démontré que le traitement relève d'un caractère légitime, d'une nécessité, et qu'il respecte les droits et intérêts personnels via une pondération entre l'intérêt recherché et l'intérêt privé des individus.

Dans le contexte actuel de la pandémie provoquée par le Covid-19, la liberté prise par certaines entreprises de fournir aux États des données quant aux déplacements des citoyens sous couvert de l'anonymat est contestable. En ce sens, Orange[11] a révélé que plus d'un million de personnes ont quitté la capitale pour éviter d'être bloquées en Île-de-France pendant le confinement décidé pour lutter contre le coronavirus. Il en est de même concernant les géants du numérique Google et Facebook[12] qui ont répondu à l'appel de la Maison Blanche en acceptant de partager respectivement un outil basé sur les données de Google Maps permettant d'analyser le respect du confinement dans les différentes régions de plus de 130 pays du monde, dont la France, d'une part, et des données permettant de retracer les mouvements de ses utilisateurs et les relations qui les unissent, d'autre part.

L'un des scénarios de la sortie du confinement en France est envisagé avec l'usage d'une application « StopCovid » sur laquelle le gouvernement a annoncé travailler. La finalité de celle-ci serait le « tracking » - sur la base du volontariat et de l'anonymat garantit par le règlement européen - des personnes ayant été en contact avec une personne infectée par le coronavirus. Le but annoncé serait l'observation des pratiques collectives de mobilité et de confinement, l'identification des sujets de « contacts » et le contrôle des confinements individuels. Cette application n'a pas encore vu le jour et reste uniquement l'une des hypothèses pouvant accompagner une sortie de confinement. Étant donné les limites précédemment évoquées quant à un pseudo anonymat, si le gouvernement devait décider d'emprunter cette voie, la mise en œuvre de celle-ci devra répondre à la protection de l'intérêt général. Une telle atteinte à la vie privée des français ne saurait être légale sauf si l'intérêt collectif est supérieur à l'intérêt individuel.

[1] https://www.economie.gouv.fr/files/rapport-fiscalite-du-numerique_2013.pdf

[2] https://www.lebigdata.fr/definition-big-data

[3] https://www.lebigdata.fr/open-data-definition​

[4]https://www.developpez.com/actu/280714/L-anonymat-en-ligne-les-donnees-anonymisees-peuvent-etre-reconstituees-a-l-aide-de-l-apprentissage-automatique-selon-les-resultats-d-une-etude/

[5] https://ojs.imodev.org/index.php/RIDDN/article/view/269/442

[6] https://www.nature.com/articles/s41467-019-10933-3

[7] Culnane, C., Rubinstein, B. I. P. & Teague, V. Health data in an open world. Preprint at: https://arxiv.org/abs/1712.05627 (2017).

[8] Douriez, M., Doraiswamy, H., Freire, J. & Silva, C. T. Anonymizing NYC taxi data: does it matter? In 2016 IEEE International Conference on Data Science and Advanced Analytics (DSAA), 140–148 (IEEE, Piscataway, NJ, 2016).

[9] Siddle, J. I know where you were last summer: London's public bike data is telling everyone where you've been. https://vartree.blogspot.com/2014/04/i-know-where-you-were-last-summer.html (2014). Accessed 7 Feb 2019.

[10] de Montjoye, Y.-A., Hidalgo, C. A., Verleysen, M. & Blondel, V. D. Unique in the crowd: the privacy bounds of human mobility. Sci. Rep. 3, 1376 (2013).

de Montjoye, Y.-A., Radaelli, L., Singh, V. K. & Pentland, A. Unique in the shopping mall: on the reidentifiability of credit card metadata. Science 347, 536–539 (2015).

[11] https://www.ouest-france.fr/sante/virus/coronavirus/confinement/confinement-selon-les-donnees-telephoniques-1-2-million-de-personnes-ont-fui-la-region-parisienne-6793517

[12] https://www.lebigdata.fr/facebook-partage-donnees-covid-19