Le New York Times exige qu'OpenAI et Microsoft paient pour les données d'entraînement : Une affaire qui fait trembler l'industrie !

Le New York Times poursuit OpenAI et Microsoft pour violation du droit d’auteur

Le New York Times a intenté un procès contre OpenAI et Microsoft, son collaborateur proche (et investisseur), pour violation présumée du droit d’auteur en entraînant des modèles d’IA générative sur le contenu du Times.

Dans le procès, déposé devant le tribunal de district fédéral de Manhattan, le Times affirme que des millions de ses articles ont été utilisés pour former des modèles d’IA, notamment ceux qui sous-tendent le ChatGPT très populaire d’OpenAI et le Copilot de Microsoft, sans son consentement. Le Times demande à OpenAI et à Microsoft de « détruire » les modèles et les données d’entraînement contenant le matériel incriminé et d’être tenus responsables de « milliards de dollars de dommages-intérêts statutaires et réels » liés à la « copie et à l’utilisation illégales des œuvres uniques et précieuses du Times ».

« Si le Times et d’autres organisations de presse ne peuvent pas produire et protéger leur journalisme indépendant, il y aura un vide que aucun ordinateur ou intelligence artificielle ne pourra combler », lit-on dans la plainte du Times. « Moins de journalisme sera produit et le coût pour la société sera énorme ».

La réaction d’OpenAI et de Microsoft

Dans une déclaration par e-mail, un porte-parole d’OpenAI a déclaré : « Nous respectons les droits des créateurs et des propriétaires de contenu et nous nous engageons à travailler avec eux pour qu’ils bénéficient de la technologie de l’IA et des nouveaux modèles de revenus. Nos conversations en cours avec le New York Times ont été productives et progressent de manière constructive, nous sommes donc surpris et déçus de cette évolution. Nous espérons que nous trouverons un moyen mutuellement bénéfique de travailler ensemble, comme nous le faisons avec de nombreux autres éditeurs »

Les modèles d’IA générative et le problème du droit d’auteur

Les modèles d’IA générative « apprennent » à partir d’exemples pour rédiger des essais, du code, des e-mails, des articles, etc., et des fournisseurs comme OpenAI rassemblent des millions à des milliards de ces exemples sur le web pour les ajouter à leurs ensembles de formation. Certains exemples sont dans le domaine public. D’autres ne le sont pas, ou sont soumis à des licences restrictives qui nécessitent une citation ou des formes spécifiques de compensation.

Les fournisseurs soutiennent que la doctrine de l’utilisation équitable offre une protection générale à leurs pratiques de collecte de données sur le web. Les détenteurs de droits d’auteur ne sont pas d’accord ; des centaines d’organisations de presse utilisent désormais du code pour empêcher OpenAI, Google et d’autres de scanner leurs sites web à la recherche de données d’entraînement.

Le conflit entre les fournisseurs et les médias a donné lieu à un nombre croissant de batailles juridiques, le Times étant le dernier en date.

Les précédents procès contre les fournisseurs d’IA générative

L’actrice Sarah Silverman a rejoint en juillet deux procès accusant Meta et OpenAI d’avoir « ingéré » les mémoires de Silverman pour former leurs modèles d’IA. Dans une autre affaire, des milliers de romanciers, dont Jonathan Franzen et John Grisham, accusent OpenAI d’avoir utilisé leurs œuvres comme données d’entraînement sans leur autorisation ni leur connaissance. Et plusieurs programmeurs ont engagé une action en justice contre Microsoft, OpenAI et GitHub au sujet de Copilot, un outil de génération de code alimenté par l’IA, que les plaignants affirment avoir été développé à l’aide de leur code protégé par des droits de propriété intellectuelle.

Bien que le Times ne soit pas le premier à poursuivre en justice les fournisseurs d’IA générative pour violation présumée de la propriété intellectuelle concernant des œuvres écrites, il est le plus grand éditeur impliqué dans une telle poursuite à ce jour, et l’un des premiers à souligner les dommages potentiels à sa marque par le biais de « hallucinations », ou de faits inventés par les modèles d’IA générative.

Les arguments du Times

La plainte du Times cite plusieurs cas où Bing Chat de Microsoft (maintenant appelé Copilot), qui est soutenu par un modèle d’OpenAI, a fourni des informations incorrectes qui étaient censées provenir du Times, notamment des résultats pour « les 15 aliments les plus sains pour le cœur », dont 12 n’étaient mentionnés dans aucun article du Times.

Le Times fait également valoir qu’OpenAI et Microsoft construisent effectivement des concurrents des éditeurs de presse en utilisant les œuvres du Times, ce qui nuit aux activités du Times en fournissant des informations qui ne pourraient normalement pas être consultées sans abonnement – des informations qui ne sont pas toujours citées, parfois monétisées et dépouillées des liens d’affiliation que le Times utilise pour générer des commissions, en outre.

Comme le suggère la plainte du Times, les modèles d’IA générative ont tendance à régurgiter les données d’entraînement, reproduisant par exemple presque littéralement des résultats d’articles. OpenAI a également, à au moins une occasion, permis accidentellement aux utilisateurs de ChatGPT de contourner les contenus d’actualités payants.

« Les défendeurs cherchent à profiter de l’énorme investissement du Times dans son journalisme », affirme la plainte, accusant OpenAI et Microsoft d’utiliser le contenu du Times sans le payer pour créer des produits qui se substituent au Times et lui volent son public.

Les enjeux pour les éditeurs de presse

L’impact sur les abonnements aux journaux et le trafic sur les sites web des éditeurs de presse est au cœur d’une action en justice tangente intentée par des éditeurs contre Google. Dans cette affaire, les défendeurs, comme le Times, soutiennent que les expériences de GenAI de Google, y compris son chatbot Bard alimenté par l’IA et son expérience de recherche générative, détournent le contenu, les lecteurs et les revenus publicitaires des éditeurs par des moyens anticoncurrentiels.

Les affirmations des éditeurs ont du poids. Un modèle récent de The Atlantic a révélé que si un moteur de recherche comme Google intégrait l’IA dans ses recherches, il répondrait à la question de l’utilisateur 75% du temps sans nécessiter de clic sur son site web. Les éditeurs dans le procès contre Google estiment qu’ils pourraient perdre jusqu’à 40% de leur trafic.

Cela ne signifie pas qu’ils auront gain de cause devant les tribunaux. Heather Meeker, associée fondatrice d’OSS Capital et conseillère en matière de propriété intellectuelle, a comparé l’exemple donné par le Times de la régurgitation à « l’utilisation d’un traitement de texte pour copier-coller ».

« Dans la plainte, le New York Times donne l’exemple d’une session ChatGPT sur une critique de restaurant de 2012 », a déclaré Meeker à Toukiela par e-mail. « La demande pour ChatGPT est ‘Quels étaient les premiers paragraphes de sa critique ?’ Les demandes suivantes demandent ensuite continuellement ‘la phrase suivante’. Amener un chatbot à reproduire une entrée n’est pas une base raisonnable pour une violation du droit d’auteur… Si l’utilisateur fait intentionnellement copier le chatbot, c’est de la responsabilité de l’utilisateur. Et c’est pourquoi la plupart [des poursuites de ce type] échoueront probablement ».

Les accords de licence

Au lieu de poursuivre les fournisseurs d’IA générative en justice, certains médias ont choisi de conclure des accords de licence avec eux. Associated Press a conclu un accord en juillet avec OpenAI, et Axel Springer, l’éditeur allemand propriétaire de Politico et Business Insider, a fait de même ce mois-ci.

Dans sa plainte, le Times affirme avoir tenté de conclure un accord de licence avec Microsoft et OpenAI en avril, mais que les discussions n’ont finalement pas abouti.

Mis à jour à 4h24 de l’est avec des informations supplémentaires et des commentaires d’OpenAI.

Le New York Times exige qu’OpenAI et Microsoft paient pour les données d’entraînement : Une affaire qui fait trembler l’industrie !