El auge de los grandes modelos lingüísticos (LLM) de código abierto
El reciente lanzamiento de Llama 2 por parte de Meta ha puesto de manifiesto el gran interés que despiertan los modelos lingüísticos de código abierto (LLM), y ha sido aclamado como el primer LLM de código abierto de un gigante tecnológico con licencia comercial.
Sin embargo, con todo este entusiasmo, es fácil olvidar la sombra de la inseguridad jurídica en torno a cuestiones como la propiedad intelectual (PI) y los derechos de autor en el espacio de la IA generativa. Normalmente, la gente se adentra en esta tecnología asumiendo que los riesgos normativos son algo de lo que deben preocuparse las empresas que crean LLM.
Se trata de una suposición peligrosa si no se tiene en cuenta la "píldora venenosa" de la IA generativa: los derivados.
Derivados de la IA generativa
Aunque las "obras derivadas" tienen un tratamiento jurídico específico en la legislación sobre derechos de autor, existen pocos precedentes para las derivadas de datos, que, gracias a los LLM de código abierto, serán mucho más comunes.
Cuando un programa genera datos de salida a partir de datos de entrada, ¿qué parte de los datos de salida es una derivada de los datos de entrada? ¿Todos? ¿Una parte? ¿Ninguna?
Un problema aguas arriba, como una "píldora venenosa", propaga el contagio a lo largo de la cadena de derivados, ampliando el alcance de cualquier reclamación a medida que nos acercamos a verdaderos retos jurídicos en relación con la PI en los LLM.
La incertidumbre sobre el tratamiento jurídico de los derivados de datos ha sido la norma en la industria del software.
Los LLM están cambiando las reglas del juego
¿Por qué están cambiando las cosas los LLM? Es una combinación perfecta de tres fuerzas:
- Centralización. Sólo desde la aparición de los LLM ha sido posible generar una salida variable infinitamente aplicable con una sola pieza de software. Los LLM no sólo producen texto e imágenes, sino también código, audio, vídeo y datos puros. Dentro de unos años, mucho antes de que se estabilice la jurisprudencia sobre propiedad intelectual y derechos de autor en torno a los LLM, el uso de los LLM será omnipresente, lo que aumentará la exposición a riesgos si éstos se extienden más allá de los proveedores de LLM a los usuarios de los mismos. Esto se aplica no sólo a los riesgos relacionados con los derechos de autor, sino también a los relacionados con otros posibles daños causados por alucinaciones, prejuicios, etc.
- Incentivos. A los titulares de derechos de autor les interesa defender una definición lo más amplia posible de los derivados LLM, ya que así aumentan el ámbito en el que pueden reclamar daños y perjuicios. Perversamente, las grandes empresas de plataformas también tienen interés en imponer restricciones a las licencias en su guerra sin cuartel con otras plataformas. La licencia de Llama 2 es un buen ejemplo: la sección 1.b.v impide el uso de Llama para "mejorar" los LLM que no sean Llama. Las definiciones imprecisas benefician a los titulares de los derechos y a quienes disponen de los mayores presupuestos legales.
Comprender los riesgos que plantea la "píldora venenosa" de la IA generativa también proporciona a los responsables tecnológicos de las empresas las herramientas para gestionarlos.