Contents
Risques de violation du droit d’auteur avec l’IA générative
Utiliser une IA générative – des modèles capables de générer du texte, des images, de la musique, etc. à partir d’une consigne – peut entraîner une violation du droit d’auteur, même sans intention de le faire. Mais qui est responsable des frais juridiques et des dommages lorsqu’une telle situation se produit ? La réponse dépend.
Dans le paysage en constante évolution de l’IA générative, les entreprises qui monétisent cette technologie – des start-ups aux géants de la tech tels que Google, Amazon et Microsoft – adoptent des approches très différentes pour gérer les risques de propriété intellectuelle.
Certains fournisseurs se sont engagés à défendre, financièrement et autrement, les clients qui utilisent leurs outils d’IA générative et se retrouvent en violation du droit d’auteur. D’autres ont publié des politiques visant à se protéger de toute responsabilité, laissant aux clients la charge des frais juridiques.
Mais les conditions d’utilisation de la plupart des outils d’IA générative sont complexes et rédigées dans un jargon juridique. Pour obtenir des éclaircissements, j’ai contacté les fournisseurs pour connaître leurs politiques de protection des clients susceptibles de violer le droit d’auteur avec leur texte, leurs images, leurs vidéos et leur musique générés par l’IA.
Les réponses – et les non-réponses – ont été instructives.
Réutilisation des données
Les modèles d’IA générative « apprennent » à partir d’exemples pour créer des essais, du code, des œuvres d’art, de la musique, voire des paroles pour accompagner cette musique. Ils sont entraînés sur des millions à des milliards de livres électroniques, de pièces d’art, d’e-mails, de chansons, d’extraits audio, d’enregistrements vocaux, etc., dont la plupart proviennent de sites web publics.
Certains de ces exemples sont dans le domaine public – du moins pour les fournisseurs qui collectent des données sur le web. D’autres ne le sont pas ou sont soumis à une licence restrictive qui exige une citation ou des formes spécifiques de compensation.
La légalité de l’utilisation de données sans autorisation par les fournisseurs est une autre question qui fait l’objet de débats devant les tribunaux. Mais ce qui pourrait causer des problèmes aux utilisateurs de l’IA générative, c’est la réutilisation, c’est-à-dire lorsque le modèle génère une copie exacte d’un exemple d’entraînement.
En haut, des images générées par Stable Diffusion, une IA génératrice d’images, à partir de légendes aléatoires de l’ensemble d’entraînement du modèle. En bas, des images générées pour correspondre aux originales. Crédits photo : Somepalli et al.
Microsoft, GitHub et OpenAI sont actuellement poursuivis dans une action collective qui les accuse de violation du droit d’auteur en permettant à Copilot, une IA génératrice de code, de réutiliser des extraits de code sous licence sans les créditer. Par ailleurs, des milliers d’écrivains ont signé une lettre ouverte dénonçant les technologies d’IA générative qui « imitent et régurgitent » leur « langage, leurs histoires, leur style et leurs idées ».
Les affaires se multiplient.
Des auteurs de Californie et de New York ont poursuivi OpenAI pour vol de propriété intellectuelle de leurs œuvres. Des fournisseurs d’outils de génération d’images, tels que Stability AI et Midjourney, font l’objet de poursuites intentées par des artistes et des sites d’images sous licence comme Getty Images. Universal Music Group cherche également à interdire la diffusion de musique générée par IA imitant le style des musiciens qu’elle représente en envoyant des avis de retrait pour faire supprimer les chansons.
Il n’est donc pas surprenant que, selon une récente enquête d’Acrolinx auprès des entreprises du classement Fortune 500, près d’un tiers d’entre elles considèrent la propriété intellectuelle comme leur plus grande préoccupation concernant l’utilisation de l’IA générative.
La menace de violer le droit d’auteur avec un outil d’IA générative n’a cependant pas dissuadé les investisseurs d’injecter des milliards dans les start-ups qui développent ces outils. On peut toutefois se demander si la situation restera tenable encore longtemps.
Une question d’indemnisation
Face à l’incertitude, on pourrait penser que les fournisseurs d’IA générative soutiendraient leurs clients de manière inconditionnelle, ne serait-ce que pour apaiser leurs craintes de poursuites judiciaires liées à la propriété intellectuelle.
Mais ce n’est pas le cas.
Le langage utilisé dans certains contrats de service – en particulier les clauses d’indemnisation, qui précisent dans quels cas les clients peuvent être remboursés des dommages causés par des réclamations de tiers – montre que tous les fournisseurs ne sont pas prêts à prendre le risque d’une décision de justice qui les obligerait à revoir leur approche de la formation des modèles génératifs, voire, dans le pire des cas, leur modèle économique.
Par exemple, Anthropic, qui vient de signer un accord avec Amazon pour lever jusqu’à 4 milliards de dollars et qui cherche apparemment à obtenir un autre investissement de 2 milliards de dollars de la part de Google et d’autres, se réserve le droit de se « décharger » et de dégager de toute responsabilité elle-même et ses partenaires en cas de dommages résultant de l’utilisation de son IA générative, y compris ceux liés à la propriété intellectuelle.
Je leur ai demandé directement si ils soutiendraient légalement ou financièrement un client accusé de violation du droit d’auteur en utilisant leurs modèles générés par l’IA, mais la société a refusé de répondre.
AI21 Labs, une autre start-up bien financée qui développe une suite d’outils d’édition de texte génératifs, a également refusé de répondre. J’ai donc consulté leur politique.
A21 Labs déclare qu’elle pourrait « assumer la défense exclusive et le contrôle » d’un procès intenté contre un client si ce dernier choisit de ne pas se défendre ou de ne pas régler le litige lui-même. Mais cela ne sera pas à ses frais, ce sera aux frais du client.
OpenAI – probablement le fournisseur d’IA générative le plus réussi aujourd’hui, avec plus de 10 milliards de dollars de capital-risque et un chiffre d’affaires approchant le milliard de dollars – m’a renvoyé vers ses conditions d’utilisation, qui limitent la responsabilité de l’entreprise à « la somme [qu’un client] a payée pour le service [OpenAI] ayant donné lieu à [la] réclamation au cours des 12 mois précédant la survenance de la responsabilité ou 100 dollars ». C’est le meilleur scénario pour les clients ; la politique d’OpenAI indique clairement que l’entreprise, dans la plupart des cas, ne sera pas partie prenante ni ne se défendra contre les poursuites pour violation du droit d’auteur visant ses utilisateurs.
Les fournisseurs qui développent des IA génératrices d’images et de vidéos, où les violations potentielles du droit d’auteur sont un peu plus évidentes, ne sont pas beaucoup plus solidaires sur le plan contractuel que leurs concurrents axés sur le texte.
Stability AI, qui développe des modèles génératifs de musique en plus de ceux d’images et de texte, m’a renvoyé aux conditions d’utilisation de son API. L’entreprise laisse aux clients la responsabilité de se défendre contre les accusations de violation du droit d’auteur et – contrairement à certains autres fournisseurs d’IA générative – n’a pas de clause de paiement en cas de responsabilité.
Midjourney et Runway.ai n’ont pas répondu à mes e-mails – mais j’ai consulté leurs conditions d’utilisation. La politique de Midjourney l’exonère de toute responsabilité pour les dommages causés à la propriété intellectuelle de tiers. La politique de Runway.ai fait de même.
Les petits caractères
Certains fournisseurs – peut-être de plus en plus conscients des préoccupations des clients d’entreprise envisageant d’adopter l’IA générative, ou cherchant à se positionner comme une alternative « plus sûre » – n’hésitent pas à s’engager à protéger les clients en cas de poursuites pour violation du droit d’auteur. Jusqu’à un certain point.
Amazon, qui vient de lancer une plateforme pour exécuter et affiner des modèles d’IA générative appelée Bedrock, déclare qu’il indemnisera (c’est-à-dire qu’il défendra) les clients contre les réclamations alléguant que le modèle porte atteinte aux droits de propriété intellectuelle d’un tiers. Mais la politique d’indemnisation d’Amazon ne s’applique qu’à la famille interne de modèles d’analyse de texte de l’entreprise, appelée Titan, ainsi qu’au service de génération de code d’Amazon, CodeWhisperer.
L’indemnité de CodeWhisperer est plus large et s’applique à toutes les réclamations en matière de propriété intellectuelle, y compris les marques commerciales. Cependant, elle nécessite au moins un abonnement professionnel à CodeWhisperer avec des fonctionnalités de filtrage et de défense du droit d’auteur activées. Les utilisateurs gratuits de CodeWhisper ne bénéficient pas des mêmes protections. De plus, les clients doivent accepter de laisser AWS gérer leur défense et de régler le litige « comme AWS le juge approprié ».
IBM offre également une indemnité pour la propriété intellectuelle de ses modèles d’IA générative, Slate et Granite, disponibles via son service d’IA générative Watsonx.
« Conformément à l’approche d’IBM en matière d’obligation d’indemnisation, IBM ne limite pas sa responsabilité d’indemnisation pour les modèles développés par IBM », a déclaré un porte-parole d’IBM à nous par e-mail. « Cela s’applique aux modèles IBM Watsonx actuels et futurs développés par IBM. »
Google n’a pas répondu à mes e-mails. Mais d’après les conditions d’utilisation de l’entreprise, il semblerait que Google offre une certaine défense aux clients contre les allégations de tiers concernant des violations du droit d’auteur liées à ses modèles de génération de texte et d’images. Toutefois, Google précise qu’il pourrait suspendre l’utilisation du modèle incriminé par le client si aucune solution « commercialement raisonnable » n’est trouvée.
Cohere, soutenu par Google, dispose également d’une clause dans ses conditions suggérant qu’il « défendra, indemnisera et protégera » les clients faisant face à des réclamations de tiers alléguant que les modèles de Cohere portent atteinte à la propriété intellectuelle. Étant donné la forte orientation de Cohere vers l’entreprise, cela n’est pas surprenant.
Microsoft a récemment annoncé qu’il paierait les dommages et intérêts juridiques au nom des clients utilisant ses produits d’IA s’ils étaient poursuivis pour violation du droit d’auteur – à condition que ces clients utilisent les « dispositifs de protection et de filtrage » intégrés à ses produits.
À quels produits cela s’applique-t-il ? C’est là que ça se complique.
Microsoft indique que sa politique d’indemnisation s’applique aux versions payantes de sa gamme de services d’IA « Copilot » (y compris Microsoft 365 Copilot pour Word, Excel et PowerPoint) et à Bing Chat Enterprise, la version entreprise de son chatbot sur Bing. Elle s’étend également à GitHub Copilot, le service de génération de code co-développé par Microsoft et OpenAI.
Mais dans sa politique Azure, Microsoft précise que les clients utilisant les « versions d’essai » des fonctionnalités d’IA générative alimentées par Azure OpenAI Service sont responsables de la réponse aux réclamations de tiers pour violation du droit d’auteur.
Kate Downing, avocate en propriété intellectuelle basée à Santa Cruz, conteste spécifiquement la clause d’indemnisation de Copilot, arguant que – compte tenu du caractère vague de la clause et de ses exclusions – les coûts initiaux pour faire valoir ses droits pourraient être trop élevés pour une entreprise.
En revanche, Adobe prétend offrir une protection « totale » en matière d’indemnisation aux utilisateurs de Firefly, sa plateforme d’art génératif par IA, affirmant que ses modèles sont formés sur des images sous licence dont Adobe détient déjà les droits. Toutefois, les utilisateurs doivent être des clients d’entreprise et sont soumis à la même limite de responsabilité d’Adobe qui s’applique aux autres réclamations de propriété intellectuelle basées sur la technologie.
Shutterstock, concurrent occasionnel d’Adobe, ainsi que Canva, offrent également une indemnisation à tous leurs clients d’entreprise, une politique introduite par l’entreprise cet été. Il en va de même pour Getty Images (Getty Images et Shutterstock, comme Adobe, forment leurs modèles sur des images sous licence).
Le chemin à parcourir
Il semble probable que, à mesure que les fournisseurs d’IA générative, en particulier les start-ups, subissent la pression des investisseurs pour acquérir des clients d’entreprise, la protection par indemnisation devienne courante. Après tout, ces clients veulent avoir l’assurance de ne pas être poursuivis en justice pour des violations du droit d’auteur.
Mais si l’état actuel des choses est un indicateur, les politiques ne se ressembleront pas. Et certaines auront des exceptions qui les rendront plus attractives en théorie qu’en pratique – autrement dit, plus un stratagème marketing qu’une véritable protection.
Comme le souligne un article récent du cabinet d’avocats britannique Ferrer & Co., les indemnités ne sont pas une « carte de sortie de prison » – ce ne sont pas une panacée.
« Notre message clé est de ne pas considérer l’offre d’indemnités par le fournisseur comme une réponse complète au risque de poursuites pour violation des droits de tiers », écrit le cabinet sur son blog. « Au lieu de cela, pesez l’offre de telles indemnités dans la balance lorsque vous décidez d’utiliser l’outil d’IA générative de ce fournisseur pour un projet. »
Les clients de l’IA générative devraient garder cela à l’esprit.