OpenAI : Une argumentation osée sur l’utilisation équitable des auteurs dans un conflit de droits d’auteur !

Les modèles d’IA générative et les problèmes de droit d’auteur

Les modèles d’IA générative tels que ChatGPT ont captivé l’imagination de millions de personnes, offrant un aperçu de ce à quoi pourrait ressembler un avenir assisté par l’IA.

Cette nouvelle technologie soulève également de nouvelles questions de droit d’auteur. Par exemple, plusieurs titulaires de droits sont inquiets que leur travail soit utilisé pour former et exploiter une IA sans aucune forme de compensation.

Ces préoccupations ont déclenché de nombreux litiges liés à l’IA aux États-Unis, dont beaucoup ciblent OpenAI. Il y a quelques jours à peine, la Guilde des auteurs et plusieurs membres éminents, dont George RR Martin et John Grisham, se sont joints à l’action en justice.

Les allégations de leur plainte sont similaires à celles formulées au cours des derniers mois. La première affaire a été déposée devant un tribunal fédéral californien par les auteurs Paul Tremblay et Mona Awad, auxquels se sont ensuite joints l’écrivain / comédien Sarah Silverman et d’autres auteurs dans une affaire similaire.

Selon les plaignants, les ensembles de données d’entraînement des modèles de langage de grande envergure ne devraient pas être autorisés à utiliser chaque morceau de texte trouvé en ligne. Ils accusent OpenAI d’utiliser des livres comme données d’entraînement, sans autorisation, en s’appuyant sur des ensembles de données provenant de sites de piratage.

Les plaintes mentionnent les ensembles de données controversés Books2 et Books3, qui sont réputés provenir de bibliothèques clandestines telles que LibGen, Z-Library, Sci-Hub et Bibliotik.

La requête d’OpenAI visant à rejeter la plainte

En août, OpenAI a répondu à ces plaintes en demandant à un tribunal fédéral californien de rejeter presque toutes les accusations. Selon l’entreprise technologique, aucune des accusations de contrefaçon de droit d’auteur par procuration, de violation du DMCA, de concurrence déloyale et d’enrichissement injuste n’est recevable.

La seule accusation contestée par OpenAI est celle de contrefaçon de droit d’auteur directe, que l’entreprise compte aborder ultérieurement.

Parmi ses arguments pour rejeter les accusations, l’entreprise d’IA invoque l’utilisation équitable. Elle soutient que l’utilisation de grandes quantités de textes protégés par le droit d’auteur peut être considérée comme « équitable » car elle favorise le progrès et l’innovation.

« De nombreux tribunaux ont appliqué la doctrine de l’utilisation équitable pour trouver un équilibre, reconnaissant que l’utilisation de matériaux protégés par le droit d’auteur par des innovateurs de manière transformative ne viole pas le droit d’auteur », écrit OpenAI.

Les auteurs réagissent

Les auteurs ont répondu à ces arguments cette semaine. Bien que les affaires « Tremblay » et « Silverman » ne soient pas encore officiellement fusionnées, elles ont toutes deux soumis les mêmes mémoires d’opposition, demandant au tribunal de rejeter la requête d’OpenAI visant à rejeter les accusations.

Les auteurs estiment que le fait qu’OpenAI ne tente pas de rejeter l’accusation de contrefaçon de droit d’auteur directe est « révélateur ». Cette question est mieux traitée lors du procès, tout comme les autres accusations.

« Néanmoins, OpenAI essaie toujours de profiter de sa requête pour préjuger des questions qu’elle pense gagner à l’avenir. Cela est inapproprié dans le cadre d’une requête en rejet et devrait être ignoré », écrivent-ils.

Le mythe urbain de l’utilisation équitable

Les auteurs notent que l’interprétation détaillée par OpenAI de l’utilisation équitable dans le contexte de l’IA est sans importance, du moins à ce stade. L’utilisation équitable est une défense qui n’est généralement pas utilisée pour rejeter des accusations de contrefaçon de droit d’auteur avant d’être correctement débattue.

« L’utilisation équitable est bien sûr une caractéristique importante, mais limitée, du droit d’auteur aux États-Unis. Cependant, il convient de noter que l’utilisation équitable est une défense affirmative et est ‘inappropriée pour être résolue lors d’une requête en rejet’. Étant donné cela, les arguments d’OpenAI concernant l’utilisation équitable sont totalement inappropriés.

Pour étayer leur argument, les auteurs font référence à une décision récente dans un procès de Thomson Reuters, qui traite également de plaintes relatives au droit d’auteur liées à l’IA. Dans cette affaire, le tribunal a rejeté l’argument de l’utilisation équitable et a renvoyé l’affaire devant un tribunal.

De plus, les plaignants notent que l’utilisation d’œuvres protégées par le droit d’auteur à des fins d’IA n’est pas toujours considérée comme une utilisation équitable ; c’est un mythe urbain.

« Contrairement à la légende urbaine répandue dans l’industrie de l’IA, aucun tribunal américain n’a clairement statué sur la question de savoir si la formation d’un modèle d’IA avec une expression protégée par le droit d’auteur constitue une utilisation équitable », écrivent les plaignants.

Le piratage comme source

Les auteurs insistent également sur leurs allégations de piratage et mentionnent trois types de contrefaçon de droit d’auteur. En plus d’utiliser des œuvres protégées par le droit d’auteur comme données d’entraînement, les modèles LLM eux-mêmes constituent également une œuvre dérivée contrefaisante, tout comme les résultats produits par les modèles.

Ces accusations et allégations reposent principalement sur la suspicion selon laquelle OpenAI a utilisé des centaines de milliers de livres protégés par le droit d’auteur comme matériel d’entraînement. Bien que l’entreprise n’ait jamais mentionné sa source, les auteurs pensent que les modèles sont entraînés sur des livres piratés provenant de bibliothèques clandestines telles que LibGen, Z-Library, Sci-Hub et Bibliotik.

« Les ensembles de données de livres utilisés par OpenAI pour l’entraînement des modèles de langage comprenaient des milliers de livres protégés par le droit d’auteur, y compris des livres écrits par les plaignants », écrivent-ils.

« Étant donné la taille de ces ensembles de données de livres, la source la plus probable de ces livres est l’un des sites de ‘bibliothèque clandestine’ notoires qui hébergent un grand nombre de textes piratés qui ne sont pas dans le domaine public. »

Les accusations de contrefaçon de droit d’auteur directe et par procuration reposent sur cette suspicion, de même que les violations du DMCA. Les auteurs espèrent pouvoir le prouver lors du procès et demandent au tribunal de ne rejeter aucune accusation prématurément.

-

Des exemplaires des mémoires d’opposition identiques des auteurs en réponse à la requête d’OpenAI visant à rejeter les accusations sont disponibles ici (Tremblay et al. / Silverman et al).

Comparta su opinión

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.