Sommaire
Les titulaires de droits d’auteur poursuivent les développeurs de l’IA
Ces derniers mois, les titulaires de droits de toutes sortes ont déposé des poursuites contre des entreprises qui développent des modèles d’IA.
La liste comprend des maisons de disques, des auteurs individuels, des artistes visuels, et même le New York Times. Ces titulaires de droits s’opposent tous à l’utilisation présumée de leur travail sans une compensation appropriée.
Plusieurs des poursuites déposées par des auteurs de livres incluent un volet piratage. Les cas allèguent que des entreprises technologiques, notamment Meta et OpenAI, ont utilisé le controversé ensemble de données Books3 pour entraîner leurs modèles.
L’ensemble de données Books3 a été créé par le chercheur en IA Shawn Presser en 2020, qui a extrait le contenu du site ‘pirate’ Bibliotik. L’idée générale était que cette collection en texte brut de plus de 195 000 livres, d’une taille de près de 37 Go, pourrait aider les passionnés d’IA à construire de meilleurs modèles.
La vision n’était pas erronée ; les vastes archives de textes sont un excellent matériau d’entraînement pour les grands modèles de langue. Cependant, de nombreux auteurs désapprouvent l’utilisation de leurs œuvres de cette manière, sans autorisation ni compensation.
Les auteurs portent plainte, OpenAI répond
Dans une plainte déposée en juin dernier, les auteurs Paul Tremblay et Mona Awad ont accusé OpenAI de violation directe et indirecte du droit d’auteur, entre autres choses. Peu après, la comédienne et écrivaine Sarah Silverman s’est associée aux auteurs Christopher Golden et Richard Kadrey dans une plainte identique.
Les plaintes allèguent que les livres des auteurs ont été obtenus à partir de sites pirates. Ils mentionnent spécifiquement le controversé ensemble de données Books3, ainsi que des données provenant d’autres bibliothèques clandestines telles que LibGen, Z-Library et Sci-Hub.
« Les livres agrégés par ces sites sont également disponibles en vrac via des systèmes de torrents. Ces bibliothèques clandestines flagrantes et illégales ont depuis longtemps suscité l’intérêt de la communauté de l’IA… », écrivent les auteurs.
OpenAI n’a pas nié directement ces allégations, mais a néanmoins contesté l’idée selon laquelle l’utilisation de livres pour entraîner l’IA constituerait une violation indirecte du droit d’auteur ou une violation du DMCA.
Dans une requête en rejet, OpenAI a demandé à la cour fédérale de Californie de « réduire » la portée de l’affaire. La seule accusation qui devrait pouvoir survivre est celle de violation directe du droit d’auteur, mais OpenAI affirme s’attendre à la rejeter ultérieurement.
La cour rejette les accusations de violation du droit d’auteur et du DMCA
Après avoir examiné les arguments des deux parties, la juge de district de Californie, Araceli Martínez-Olguín, s’est prononcée sur la question. Dans son ordonnance, elle penche largement en faveur d’OpenAI.
L’accusation de violation indirecte du droit d’auteur échoue car la cour n’est pas d’accord pour dire que toute production des modèles d’OpenAI peut être considérée comme une œuvre dérivée. Pour survivre, l’accusation de violation doit être plus concrète.
« L’allégation des plaignants selon laquelle ‘chaque production des modèles de langage d’OpenAI est une œuvre dérivée contrefaisante’ est insuffisante. Les plaignants n’expliquent pas en quoi consistent les productions ou ne prétendent pas qu’une production particulière est substantiellement similaire – ou similaire du tout – à leurs livres », indique l’ordonnance.
En plus de la violation du droit d’auteur, les auteurs ont accusé OpenAI d’avoir violé le DMCA en modifiant intentionnellement les informations de gestion des droits d’auteur (CMI). Des détails tels que le titre, l’auteur et le détenteur des droits auraient été supprimés pour « permettre » ou « dissimuler » la violation.
La juge Martínez-Olguín ne voit aucune preuve de la suppression intentionnelle de ces informations de droit d’auteur. Et même si ces allégations sont vraies, il n’y a aucune preuve qu’elles ont été faites à des fins néfastes.
« Les plaignants soutiennent que le fait qu’OpenAI ne précise pas quels livres Internet il utilise pour entraîner ChatGPT montre qu’il a sciemment facilité la violation, car les utilisateurs de ChatGPT ne sauront pas si une production quelconque est contrefaisante.
« Cependant, les plaignants ne citent aucune jurisprudence pour suggérer que le fait de ne pas révéler ces informations a une quelconque incidence sur le fait que la suppression présumée de CMI dans une base de données interne facilitera sciemment la violation », indique l’ordonnance.
Les auteurs ont également affirmé qu’OpenAI a distribué ses œuvres sans CMI, ce qui violerait également le DMCA. Cet argument est également rejeté par la cour, car OpenAI n’a pas distribué de copies complètes de livres.
« Au lieu de cela, [les auteurs] ont allégué que ‘chaque production des modèles de langage d’OpenAI est une œuvre dérivée contrefaisante’ sans fournir d’indication quant à ce que ces productions comprennent – c’est-à-dire s’il s’agit des livres protégés par le droit d’auteur ou de copies des livres », indique l’ordonnance.
L’accusation de violation directe du droit d’auteur est maintenue
En plus de la violation indirecte du droit d’auteur et des violations du DMCA, la juge Martínez-Olguín a également rejeté les accusations de violations de la California Unfair Competition Law (UCL) pour ‘pratiques commerciales illégales’, ‘comportement frauduleux’, ‘négligence’ et ‘enrichissement sans cause’. L’accusation de ‘pratiques déloyales’ peut aller de l’avant.
Ce n’est pas la fin de la bataille juridique. Les auteurs ont la possibilité de déposer une plainte modifiée pour corriger les lacunes, s’ils souhaitent poursuivre les accusations rejetées.
Enfin, il convient de souligner que l’accusation de violation directe du droit d’auteur n’était pas couverte par la requête en rejet d’OpenAI, elle sera donc poursuivie. De même que de nombreuses autres poursuites en matière de droits d’auteur de l’IA.
—
Une copie de l’ordonnance de la juge de district de Californie, Araceli Martínez-Olguín, sur la requête en rejet est disponible ici (pdf).