Prévenez facilement la scandaleuse affaire de deepfake de Taylor Swift !

Sommaire

Le scandale des deepfakes pornographiques de Taylor Swift met en évidence les lacunes de la plateforme X

La semaine dernière, la plateforme X, anciennement appelée Twitter et appartenant à Elon Musk, a créé la polémique en diffusant des images deepfake pornographiques de Taylor Swift, ce qui a suscité la colère de la Maison Blanche, de la Personnalité de l’année de TIME et de la fanbase la plus fervente de la culture pop.

Une des publications les plus répandues de ces deepfakes explicites et non consensuels a été visionnée plus de 45 millions de fois et a reçu des centaines de milliers de likes. Et cela ne prend même pas en compte tous les comptes qui ont partagé ces images dans des publications distinctes – une fois qu’une image a été diffusée à une telle échelle, il est pratiquement impossible de l’effacer.

Les lacunes de X en matière de modération de contenu

X ne dispose pas de l’infrastructure nécessaire pour identifier rapidement et à grande échelle les contenus abusifs. Même à l’époque de Twitter, ce problème était difficile à résoudre, mais il est devenu bien pire depuis que Musk a réduit considérablement les effectifs de Twitter, notamment la majorité de ses équipes de confiance et de sécurité. Ainsi, la fanbase massive et passionnée de Taylor Swift a pris les choses en main en inondant les résultats de recherche pour des requêtes telles que « taylor swift ai » et « taylor swift deepfake », afin de rendre plus difficile pour les utilisateurs de trouver les images abusives. Alors que le porte-parole de la Maison Blanche a appelé le Congrès à agir, X a simplement banni le terme de recherche « taylor swift » pendant quelques jours. Lorsque les utilisateurs recherchaient le nom de la musicienne, ils voyaient un message d’erreur.

Cet échec de modération de contenu est devenu une histoire nationale, car Taylor Swift est Taylor Swift. Mais si les plateformes sociales ne peuvent pas protéger l’une des femmes les plus célèbres au monde, qui peuvent-elles protéger ?

Les communautés de soutien : un échec de la modération de contenu

« Si ce qui est arrivé à Taylor Swift vous arrive, comme cela arrive à tant de personnes, vous n’aurez probablement pas le même niveau de soutien basé sur votre influence, ce qui signifie que vous n’aurez pas accès à ces communautés de soutien vraiment importantes », explique la Dre Carolina Are, chercheuse au Centre for Digital Citizens de l’Université de Northumbria au Royaume-Uni. « Et c’est vers ces communautés de soutien que la plupart des utilisateurs doivent se tourner dans ces situations, ce qui montre vraiment l’échec de la modération de contenu. »

Bannir le terme de recherche « taylor swift » revient à mettre un morceau de ruban adhésif sur une canalisation éclatée. Il existe de nombreuses contournements évidents, comme lorsque les utilisateurs de TikTok recherchent « seggs » au lieu de « sex ». Le blocage de la recherche est une mesure que X peut prendre pour donner l’impression qu’il fait quelque chose, mais cela n’empêche pas les gens de simplement rechercher « t swift » à la place. Mike Masnick, fondateur de Copia Institute et Techdirt, a qualifié cette tentative de « massue de confiance et de sécurité ».

« Les plateformes sont mauvaises lorsqu’il s’agit de donner aux femmes, aux personnes non binaires et aux personnes queer le contrôle sur leur corps, elles reproduisent donc les systèmes de violence et de patriarcat hors ligne », explique Are. « Si vos systèmes de modération sont incapables de réagir en cas de crise, ou s’ils sont incapables de répondre aux besoins des utilisateurs lorsqu’ils signalent un problème, nous avons un problème. »

Les recommandations pour une meilleure modération de contenu

Are pose ces questions dans le cadre de ses recherches et propose que les plateformes sociales aient besoin d’une refonte complète de leur approche de la modération de contenu. Récemment, elle a mené une série de discussions avec 45 utilisateurs d’Internet du monde entier qui sont victimes de censure et d’abus afin de formuler des recommandations aux plateformes sur la manière d’apporter des changements.

Une recommandation consiste à ce que les plateformes de médias sociaux soient plus transparentes avec les utilisateurs individuels concernant les décisions relatives à leur compte ou à leurs signalements concernant d’autres comptes.

« Vous n’avez pas accès à un dossier de cas, même si les plateformes ont accès à ces informations – elles ne veulent simplement pas les rendre publiques », explique Are. « Je pense que lorsqu’il s’agit d’abus, les gens ont besoin d’une réponse plus personnalisée, contextuelle et rapide, qui implique, si ce n’est pas une aide en face-à-face, au moins une communication directe. »

X a annoncé cette semaine qu’il embaucherait 100 modérateurs de contenu pour travailler dans un nouveau centre de « confiance et de sécurité » à Austin, au Texas. Mais sous le contrôle de Musk, la plateforme n’a pas établi un précédent solide pour la protection des utilisateurs marginalisés contre les abus. Il peut également être difficile de prendre Musk au sérieux, car le magnat a déjà fait de nombreuses promesses non tenues. Lorsqu’il a acheté Twitter, Musk a déclaré qu’il formerait un conseil de modération de contenu avant de prendre des décisions importantes. Cela ne s’est pas produit.

La responsabilité des entreprises de technologie

Dans le cas des deepfakes générés par l’IA, la responsabilité ne repose pas seulement sur les plateformes de médias sociaux. Elle repose également sur les entreprises qui créent des produits d’IA générative destinés aux consommateurs.

Une enquête de 404 Media révèle que les représentations abusives de Swift provenaient d’un groupe Telegram dédié à la création de deepfakes explicites non consensuels. Les membres du groupe utilisent souvent Microsoft Designer, qui s’appuie sur DALL-E 3 d’OpenAI pour générer des images en fonction des termes saisis. Dans une faille que Microsoft a depuis corrigée, les utilisateurs pouvaient générer des images de célébrités en écrivant des termes tels que « taylor ‘singer’ swift » ou « jennifer ‘actor’ aniston ».

Un responsable principal de l’ingénierie logicielle chez Microsoft, Shane Jones, a écrit une lettre au procureur général de l’État de Washington pour signaler des vulnérabilités dans DALL-E 3 en décembre, qui permettaient de « contourner certaines des barrières conçues pour empêcher le modèle de créer et de distribuer des images nocives ».

Jones a alerté Microsoft et OpenAI des vulnérabilités, mais après deux semaines, il n’a reçu aucune indication que les problèmes étaient résolus. Il a donc publié une lettre ouverte sur LinkedIn pour exhorter OpenAI à suspendre la disponibilité de DALL-E 3. Jones a informé Microsoft de sa lettre, mais il a rapidement reçu la demande de la retirer.

« Nous devons demander des comptes aux entreprises pour la sécurité de leurs produits et leur responsabilité de divulguer les risques connus au public », a écrit Jones dans sa lettre au procureur général de l’État. « Les employés préoccupés, comme moi-même, ne devraient pas être intimidés et forcés au silence. »

OpenAI a déclaré à Toukiela qu’il avait immédiatement enquêté sur le rapport de Jones et qu’il avait constaté que la technique décrite ne contournait pas ses systèmes de sécurité.

« Dans le modèle sous-jacent de DALL-E 3, nous avons travaillé pour filtrer le contenu le plus explicite de ses données d’entraînement, y compris le contenu sexuel et violent explicite, et nous avons développé des classificateurs d’images robustes qui orientent le modèle loin de la génération d’images nocives », a déclaré un porte-parole d’OpenAI. « Nous avons également mis en place des mesures de sécurité supplémentaires pour nos produits, ChatGPT et l’API DALL-E, notamment le refus des demandes qui demandent une personnalité publique par nom. »

OpenAI a ajouté qu’il utilise des équipes externes pour tester ses produits afin de prévenir les abus. Il n’est toujours pas confirmé si le programme de Microsoft est responsable des deepfakes explicites de Swift, mais le fait est qu’à partir de la semaine dernière, à la fois les journalistes et les acteurs malveillants sur Telegram ont pu utiliser ce logiciel pour générer des images de célébrités.

Jones conteste les affirmations d’OpenAI. Il a déclaré à Toukiela : « Je viens seulement d’apprendre qu’OpenAI pense que cette vulnérabilité ne contourne pas leurs dispositifs de sécurité. Ce matin, j’ai effectué un autre test en utilisant les mêmes termes que j’ai signalés en décembre et sans exploiter la vulnérabilité, les dispositifs de sécurité d’OpenAI ont bloqué les termes dans 100% des tests. Lors des tests avec la vulnérabilité, les dispositifs de sécurité ont échoué 78% du temps, ce qui correspond à un taux d’échec constant par rapport aux tests précédents. La vulnérabilité existe toujours. »

La nécessité d’une régulation proactive du contenu abusif

Alors que les entreprises les plus influentes au monde investissent massivement dans l’IA, les plateformes doivent adopter une approche proactive pour réguler le contenu abusif. Mais même à une époque où la création de deepfakes de célébrités n’était pas aussi facile, les comportements violatifs échappaient facilement à la modération.

« Cela montre vraiment que les plateformes ne sont pas fiables », déclare Are. « Les communautés marginalisées doivent faire plus confiance à leurs followers et aux autres utilisateurs qu’aux personnes qui sont techniquement responsables de notre sécurité en ligne. »

Mis à jour le 30/01/24 à 22h30, avec un commentaire d’OpenAI
Mis à jour le 31/01/24 à 18h10, avec un commentaire supplémentaire de Shane Jones