Le poison mortel de l’IA générative : quand les œuvres dérivées deviennent la cible !

La montée en puissance des modèles de langage de grande taille (LLM) en open source

Le récent lancement de Llama 2 par Meta a démontré l’explosion d’intérêt pour les modèles de langage de grande taille (LLM) en open source, et ce lancement a été salué comme étant le premier LLM en open source provenant d’un géant de la technologie avec une licence commerciale.

Cependant, dans toute cette excitation, il est facile d’oublier l’ombre d’incertitude juridique concernant des questions telles que la propriété intellectuelle (PI) et les droits d’auteur dans l’espace de l’IA générative. En général, les gens se lancent dans cette technologie en supposant que les risques réglementaires sont quelque chose dont les entreprises créant des LLM doivent se préoccuper.

C’est une supposition dangereuse sans tenir compte du « poison pill » de l’IA générative : les dérivés.

Les dérivés de l’IA générative

Alors que les « œuvres dérivées » ont un traitement juridique spécifique en vertu du droit d’auteur, il existe peu de précédents en ce qui concerne les dérivés de données, qui, grâce aux LLM en open source, vont devenir beaucoup plus courants.

Quand un programme génère des données de sortie basées sur des données d’entrée, quelle partie des données de sortie est un dérivé des données d’entrée ? Tout ? Une partie ? Aucune ?

Un problème en amont, comme un « poison pill », propage la contagion le long de la chaîne des dérivés, élargissant la portée de toute revendication à mesure que nous nous rapprochons de véritables défis juridiques concernant la PI dans les LLM.

L’incertitude concernant le traitement juridique des dérivés de données a été la norme dans le domaine des logiciels.

Les LLM changent la donne

Pourquoi les LLM changent-ils la donne ? C’est une combinaison parfaite de trois forces :

  • Centralisation. Ce n’est que depuis l’avènement des LLM que l’on peut générer des sorties variables applicables de manière infinie avec un seul logiciel. Les LLM produisent non seulement du texte et des images, mais aussi du code, de l’audio, de la vidéo et des données pures. D’ici quelques années, bien avant que la jurisprudence sur la propriété intellectuelle et les droits d’auteur concernant les LLM ne se stabilise, l’utilisation des LLM sera omniprésente, augmentant l’exposition aux risques si ceux-ci dépassent les fournisseurs de LLM pour atteindre les utilisateurs de LLM. Cela s’applique non seulement aux risques liés aux droits d’auteur, mais également aux risques liés à d’autres préjudices possibles causés par les hallucinations, les biais, etc.
  • Incentives. Les détenteurs de droits d’auteur ont intérêt à plaider en faveur de la définition la plus large possible des dérivés de LLM, car cela augmente la portée sur laquelle ils peuvent réclamer des dommages. De manière perverse, les grandes entreprises de plateformes ont également intérêt à imposer des restrictions de licence dans leur guerre totale avec les autres plates-formes. La licence Llama 2 en est un exemple : la section 1.b.v empêche l’utilisation de Llama pour « améliorer » les LLM non-Llama. Des définitions floues profitent aux titulaires de droits et à ceux qui ont le plus gros budget juridique.

Comprendre les risques posés par le « poison pill » de l’IA générative donne également aux leaders technologiques d’entreprise les outils pour les gérer.

Partagez votre opinion

Ce site utilise Akismet pour réduire les spams. Découvrez comment les données de vos commentaires sont traitées.