Révélations choquantes de Meta : utilisation d'un ensemble de données de livres 'piratés' pour entraîner l'IA !

Contents

Des titulaires de droits d’auteur intentent des poursuites contre des entreprises de développement d’IA

Ces derniers mois, des titulaires de droits de toutes sortes ont intenté des poursuites contre des entreprises qui développent des modèles d’IA.

La liste comprend des maisons de disques, des auteurs individuels, des artistes visuels et plus récemment le New York Times. Tous ces titulaires de droits s’opposent à l’utilisation présumée de leur travail sans une juste compensation.

Plusieurs des poursuites intentées par des auteurs de livres incluent également un volet de piratage. Les affaires allèguent que des entreprises technologiques, dont Meta et OpenAI, ont utilisé le controversé ensemble de données Books3 pour former leurs modèles.

L’ensemble de données Books3 a un angle de piratage évident. Il a été créé par le chercheur en IA Shawn Presser en 2020, qui a récupéré la bibliothèque du site ‘pirate’ Bibliotik. Cet archive de livres était hébergée publiquement par le collectif d’archivage numérique ‘The Eye’ à l’époque, aux côtés de diverses autres sources de données.

^{Bibliotik et d’autres sources précédemment hébergées sur The Eye}

L’idée générale était que la collection en texte brut de plus de 195 000 livres, qui fait près de 37 Go, pourrait aider les passionnés d’IA à construire de meilleurs modèles, ce qui stimulerait l’innovation.

L’essor de l’IA entraîne des problèmes de droits d’auteur

Presser n’avait pas tort, mais l’ensemble de données n’a pas seulement aidé les start-ups d’IA de garage. Plusieurs des plus grandes entreprises technologiques du monde l’ont également découvert et l’ont utilisé pour améliorer leurs propres modèles linguistiques.

Pendant des années, Books3 est resté librement et largement disponible, aidant les chercheurs et les passionnés d’IA du monde entier. Cependant, lorsque l’essor de l’IA a atteint le grand public l’année dernière, les auteurs de livres et les éditeurs ont pris note, puis ont pris des mesures de représailles.

Par exemple, le groupe d’anti-piraterie danois Rights Alliance a demandé à The Eye de supprimer leur copie de Books3, ce qu’il a fait. L’ensemble de données a également disparu du site web de l’entreprise d’IA Huggingface, citant une violation présumée du droit d’auteur, tandis que d’autres envisageaient leurs options.

Comme l’a précédemment rapporté Wired, Bloomberg a informé Rights Alliance qu’il n’a pas l’intention de former de futures versions de son modèle BloombergGPT en utilisant Books3, et d’autres entreprises ont probablement pris des décisions similaires à huis clos.

Meta admet l’utilisation de Books3

Ces développements sont remarquables, mais toutes les plaintes ne peuvent pas être résolues par des promesses. Plusieurs poursuites contre OpenAI et Meta sont toujours en cours, accusant les entreprises d’avoir utilisé l’ensemble de données Books3 pour former leurs modèles.

Alors qu’OpenAI et Meta sont très prudents lorsqu’il s’agit de discuter du sujet en public, Meta a fourni plus de détails devant un tribunal fédéral de Californie cette semaine.

En réponse à une poursuite intentée par l’écrivaine/comédienne Sarah Silverman, l’auteur Richard Kadrey et d’autres titulaires de droits, le géant de la technologie admet que « des parties de Books3 » ont été utilisées pour former le modèle d’IA Llama avant sa sortie publique.

« Meta admet avoir utilisé des parties de l’ensemble de données Books3, parmi de nombreux autres matériaux, pour former Llama 1 et Llama 2 », écrit Meta dans sa réponse.

Cette admission n’est pas une surprise majeure car plusieurs sources, y compris des articles de recherche, sont parvenues à la même conclusion. Bien que l’utilisation de Books3 ne soit pas contestée par Meta, la question reste de savoir si l’entreprise a agi de manière répréhensible en le faisant.

Meta nie la violation du droit d’auteur

La réponse de Meta admet l’utilisation de Books3 mais nie diverses autres allégations et revendications. Par exemple, les auteurs ont allégué que Meta avait formé son IA sur des œuvres protégées par le droit d’auteur sans autorisation. La réponse ne le nie pas directement, mais souligne que le consentement ou une compensation ne sont pas nécessairement requis.

« Dans la mesure où une réponse est jugée nécessaire, Meta nie que son utilisation d’œuvres protégées par le droit d’auteur pour former Llama nécessitait un consentement, un crédit ou une compensation », écrit Meta.

Les auteurs ont également déclaré que, dans la mesure où leurs livres apparaissent dans la base de données Books3, ils sont désignés comme des « œuvres violées ». Cela a incité Meta à répondre par un autre déni. « Meta nie avoir violé les présumés droits d’auteur des demandeurs », écrit la société.

Usage équitable

La réponse de Meta ne fournit pas beaucoup plus de détails et la défense complète sera révélée au fur et à mesure de l’évolution de l’affaire. Il est clair, cependant, que l’entreprise prévoit de s’appuyer en partie sur une défense d’usage équitable.

« Dans la mesure où Meta a fait des copies non autorisées des œuvres protégées par le droit d’auteur des demandeurs, ces copies constituent un usage équitable conformément à l’article 107 du titre 17 du Code des États-Unis », note Meta.

L’angle de l’usage équitable devrait être un élément clé de ces poursuites judiciaires et d’autres liées à l’IA. Cela s’applique non seulement aux sources « pirates », mais aussi à l’utilisation de contenus publiés par le biais de canaux officiels, mais utilisés sans autorisation explicite.

Ces batailles juridiques en sont encore à leurs débuts, mais pourraient éventuellement aboutir devant la Cour suprême si nécessaire. Les entreprises d’IA ont souligné que le progrès serait entravé si les règles et les réglementations sont trop strictes.

Plus tôt cette semaine, OpenAI a mentionné que l’usage équitable est à la fois nécessaire et essentiel pour construire des modèles d’IA compétitifs, notant que les organisations de presse peuvent choisir de ne pas participer si elles le souhaitent. Inutile de dire que cette option n’existait pas auparavant, certainement pas pour la base de données Books3.

Nous présumons que lorsque Presser a créé Books3, il n’imaginait jamais que l’ensemble de données serait au centre de poursuites historiques qui pourraient définir l’avenir de l’IA. Cependant, les enjeux ont changé, et l’effort d’archivage bien intentionné fait désormais partie d’un important conflit en matière de droits d’auteur.

Une copie de la réponse de Meta à la première plainte amendée consolidée de l’auteur est disponible ici (pdf)

Révélations choquantes de Meta : utilisation d’un ensemble de données de livres ‘piratés’ pour entraîner l’IA !

Des titulaires de droits d’auteur intentent des poursuites contre des entreprises de développement d’IA

L’essor de l’IA entraîne des problèmes de droits d’auteur

Meta admet l’utilisation de Books3

Meta nie la violation du droit d’auteur

Usage équitable

Share your opinion Cancel reply