Der Aufstieg der großen Sprachmodelle (LLM) in Open Source
Die kürzliche Veröffentlichung von Llama 2 durch Meta hat das explosionsartige Interesse an großen Sprachmodellen (LLM) in Open Source gezeigt, und diese Veröffentlichung wurde als das erste Open-Source-LLM von einem Technologieriesen mit einer kommerziellen Lizenz gefeiert.
Bei all der Aufregung übersieht man jedoch leicht den Schatten der Rechtsunsicherheit in Bezug auf Fragen wie geistiges Eigentum (IP) und Urheberrechte im Raum der generativen KI. In der Regel stürzen sich die Menschen auf diese Technologie in der Annahme, dass regulatorische Risiken etwas sind, worüber sich Unternehmen, die LLM schaffen, Gedanken machen müssen.
Dies ist eine gefährliche Annahme, ohne die "Giftpille" der generativen KI zu berücksichtigen: die Derivate.
Derivate der generativen KI
Während "abgeleitete Werke" unter dem Urheberrecht eine besondere rechtliche Behandlung erfahren, gibt es nur wenige Präzedenzfälle für Datenderivate, die dank Open-Source-LLMs viel häufiger vorkommen werden.
Wenn ein Programm Ausgabedaten erzeugt, die auf Eingabedaten basieren, welcher Teil der Ausgabedaten ist dann ein Derivat der Eingabedaten? Alle? Ein Teil davon? Keines?
Ein Problem im Vorfeld, wie eine "Giftpille", verbreitet die Ansteckung entlang der Derivatkette und erweitert die Reichweite jeglicher Ansprüche, da wir uns echten rechtlichen Herausforderungen in Bezug auf IP in LLM nähern.
Unsicherheit über die rechtliche Behandlung von Datenderivaten war im Softwarebereich die Norm.
LLMs verändern das Spiel
Warum sind LLMs ein Gamechanger? Es ist eine perfekte Kombination aus drei Kräften:
- Zentralisierung. Erst seit dem Aufkommen der LLMs ist es möglich, mit einer einzigen Software unendlich anwendbare variable Ausgaben zu erzeugen. LLMs produzieren nicht nur Text und Bilder, sondern auch Code, Audio, Video und reine Daten. In einigen Jahren, lange bevor sich die Rechtsprechung zu geistigem Eigentum und Urheberrechten in Bezug auf LLM stabilisiert hat, wird die Nutzung von LLM allgegenwärtig sein und die Risikoexposition erhöhen, wenn die Risiken über die Anbieter von LLM hinausgehen und die Nutzer von LLM erreichen. Dies gilt nicht nur für Risiken im Zusammenhang mit Urheberrechten, sondern auch für Risiken im Zusammenhang mit anderen möglichen Schäden, die durch Halluzinationen, Bias usw. verursacht werden.
- Incentives. Urheberrechtsinhaber haben ein Interesse daran, für eine möglichst breite Definition von LLM-Derivaten zu plädieren, da dies den Umfang erhöht, in dem sie Schäden einfordern können. Auf perverse Weise haben auch die großen Plattformunternehmen ein Interesse daran, in ihrem totalen Krieg mit anderen Plattformen Lizenzbeschränkungen durchzusetzen. Die Llama-2-Lizenz ist ein Beispiel dafür: Abschnitt 1.b.v verhindert die Nutzung von Llama zur "Verbesserung" von Nicht-Llama-LLMs. Unklare Definitionen kommen den Rechteinhabern und denjenigen mit dem größten Rechtsbudget zugute.
Das Verständnis der Risiken, die durch das "Pillengift" der generativen KI entstehen, gibt den Technologieführern in den Unternehmen auch die Werkzeuge an die Hand, um mit ihnen umzugehen.