RGPD • opsci

Opsci s’engage en matière de protection des données collectées dans le cadre de ses projets de recherche. Institut spécialisé dans l’étude de l’espace public numérique, nous collaborons principalement avec des ONGs, des fondations, des équipes scientifiques et des institutions, sur des thématiques d’intérêt public : crise climatique, politiques écologiques, démocratie en ligne… Nous utilisons des techniques nouvelles d’intelligence artificielle pour identifier les tendances principales ou émergentes de l’opinion publique.

Nos études portent fréquemment sur des contenus accessibles publiquement sur de Très Grandes Plateformes en Ligne : Twitter, Facebook, YouTuben, Tiktok ou Instagram. Ces contenus sont susceptibles de contenir des données personnelles telles que définies par le RGPD.

Opsci s’attache non seulement à mettre en œuvre les grands principes du RGPD mais s’implique également dans la définition de bonnes pratiques au regard du traitement des données et de la conciliation du RGPD avec d’autres régulations (Digital Service Act) et des opportunités et risques liés à l’usage de l’intelligence artificielle.

Principes généraux de la protection des données

La politique d’Opsci repose sur les grands principes européens décrits dans l’art. 5 du RGPD :

Les données sont “traitées de manière licite, loyale et transparente”. Les études d’Opsci sont des projets de recherche qui donnent lieu à des publications sur ce site ou sur des sites partenaires. Les études décrivent notamment les corpus utilisés et les mesures mises en place pour encadrer le traitement potentiel de données personnelles.
Les données sont “collectées pour des finalités déterminées, explicites et légitimes”, dans le cadre de projets précis et documentés.
Les données sont “adéquates, pertinentes et limitées à ce qui est nécessaire”. Opsci recourt systématiquement à des procédures de “minimisation des données” : seules les données immédiatement utiles à la réalisation du projet de recherche sont conservées et traitées. La section suivante décrit plus précisément la mise en œuvre concrète de cette stratégie de minimisation au regard des deux principaux traitements effectués (analyse de texte, analyse de communautés).
Les données ne sont conservées que “pendant une durée n'excédant pas celle nécessaire au regard des finalités pour lesquelles elles sont traitées”. L’activité d’Opsci est structurée autour de projets de recherche dont la temporalité est pré-définie.
Les données sont “traitées de façon à garantir une sécurité appropriée des données à caractère personnelles”. Tous nos corpus sont stockés sur un serveur sécurisé localisé physiquement en France, appartenant à l’entreprise. Pour ces traitements, nous n’utilisons pas de service en cloud.

Traitements des données

Les études d’Opsci portent exclusivement sur des “publications” diffusées et partagées dans l’espace public numérique. Il s'agit de contenus accessibles sur les plateformes et non limités à un cercle privé prédéfini par l’utilisateur.

Bien que la diffusion de ces contenus fasse l’objet d’un consentement minimal, en accord avec le RGPD, nous partons du principe que la publication et la diffusion ouverte des contenus sur les réseaux n’épuise pas les questions liées aux données personnelles. Ces données peuvent notamment inclure des éléments d’identification personnelle (nom ou autres données spécifiées par l’utilisateur) ou des informations sur une personne portées par un tiers.

Différentes mesures permettent de retirer des données identifiables ou de les cantonner à certains usages précis et documentés. Les études d’Opsci reposent sur deux traitements différenciés selon le statut du compte :

L’analyse des discours et des narratifs sur les réseaux sociaux à partir de nouveaux modèles d’intelligence artificielle

Opsci suit par exemple l’évolution des discours sur le changement climatique dans plusieurs pays européens. Pour être exhaustives, ces approches nécessitent la collecte de grands corpus (sur Twitter en France, un an de débat climatique représente près de deux millions de tweets).. Afin de limiter les risques de reprises de données personnelles, nous procédons à une “minimisation” des données : seuls les textes émis par les utilisateurs et quelques métadonnées non identifiables (date de création du texte, métriques de circulation et d’engagement) sont conservées. Toutes les données d’identification sont écartées. Enfin, seuls des modèles d’intelligence artificielle “lisent” le corpus en intégralité afin d’opérer sa classification à grande échelle. Des petits échantillons minimisés du corpus sont étudiés manuellement par les analystes en accord avec les principes prédéfinis par le

data controller
.
L’analyse des médias, des organisations, des personnalités politiques et des leaders d’opinion

Les contenus observés sont ceux publiés par des personnalités publiques porteurs d’,une parole publique. En accord avec les exceptions prévues par le RGPD et les pratiques courantes dans la recherche et dans le journalisme, nous suivons ici les principes exposés dans les articles 6 et 9 selon lesquels la protection des données personnelles s’articule avec d’autres principes fondamentaux dont “l’intérêt public important”. Ces acteurs publics peuvent faire l’objet de traitement impliquant la préservation de données d’identification, notamment la création de réseaux par affinités ou la reconstitution de communautés d’intérêt.

Au-delà de ces deux traitements principaux, Opsci est structuré autour de projets de recherche ponctuels qui posent différentes problématiques d’extraction, de gestion et de sécurisation des données. Les analyses de données sont effectués sous l’égide d’un responsable du traitement ou “contrôleur des données“. Le responsable “détermine les finalités et les moyens du traitement” et s’assure de sa conformité avec les principes de protection des données personnelles (art. 4 du RGPD).

Données d’intérêt public : contribuer à l’élaboration de “bonnes pratiques”

En 2023, la réglementation sur la protection des données concernant l'analyse des médias sociaux reste insuffisamment claire. Des interrogations demeurent en particulier sur la conciliation du RGPD avec d’autres grands principes fondamentaux (droit à l’information notamment), et plus récemment les nouvelles régulations des grandes plateformes en ligne.

Le RGPD prévoit déjà une exception générale pour le traitement des données personnelles pour des "raisons d'intérêt public important" (art. 6 & 9). Toutes nos études s’inscrivent dans ce cadre. Cependant, la réglementation concernant les exceptions doit encore être mise en œuvre dans les États membres de l’UE et, dans ce contexte, il est encore difficile de considérer un “intérêt public important” comme base pour traiter des données sensibles à des fins de recherche scientifique (Wiewiorówski, 2020).
Le RGPD inclut également des dérogations aux principes fondamentaux de protection des données personnelles possibles si elles sont "traitées à des fins de recherche scientifique ou historique" et si l'application de ces principes "entraverait sérieusement" ce traitement (art. 89).

Opsci s’investit pleinement dans la création de bonnes pratiques adaptées à ce nouveau champ de recherche. Nous nous attachons en particulier à matérialiser l’équilibre entre protection des données et intérêt public. L’un de nos principaux projets consiste à définir des critères clairs différenciants des personnalités publiques s’exprimant publiquement de la grande majorité des utilisateurs dont l’identité et la vie privée doivent être protégées.

Opsci suit également de près l’évolution de la régulation européenne. Le Digital Service Act prévoit notamment de généraliser l’accès externe aux données des plateformes lorsque celles-ci présentent un “risque systémique”, en particulier en matière de désinformation (art. 40). Opsci a mené des études sur la désinformation et la circulation des “fake news” en ligne (Twitter, Facebook, TikTok), qui s’inscrivent dans ce cadre. L’analyse fine de la désinformation requiert le traitement de données d’identification, en particulier pour reconstituer des formes de coordination en amont.

Intelligence artificielle et protection des données

Depuis 2021, Opsci s’est spécialisé dans l’utilisation de nouvelles technologies d’analyse du texte par intelligence artificielle. Nos projets reposent sur une classification automatisée par un modèle BERT. Ce type de modèles propose une compréhension fine du texte au-delà du décompte des occurrences et des mots : il parvient à identifier des structures de phrases récurrentes, des arguments et des positionnements.

Les développements rapides de l’intelligence artificielle appliquée à l'étude des réseaux sociaux soulèvent de nouvelles questions et apportent de nouvelles réponses aux enjeux de protection des données personnelles :

Les nouveaux modèles de classification présentent des risques bien identifiés par les spécialistes de l’éthique de l’intelligence artificielle : les résultats peuvent être biaisés ou amplifier des stéréotypes préexistants. Pour les projets de recherche d’Opsci, ce risque est forcément contrôlé : nous n'effectuons pas de classification basée sur des données personnelles ou démographiques.
La classification à grande échelle permet de ne consulter qu’une petite partie du corpus lors de la phase de préparation et d’interprétation des modèles de classification. Les résultats finaux de la classification comprennent des données agrégées (nombre d’émissions ou d’engagements sur un sujet par jour) et des représentations sémantiques simplifiées du texte d’origine (les “embeddings”). Concrètement, les données personnelles présentes indirectement dans le corpus d’origine ne sont pas conservées à l’issue de ce traitement. L’intelligence artificielle rend donc possible une conciliation des principes de protection des données et d’ouverture des résultats de recherche (Open Science).