Die unerlaubte Reproduktion eines geschützten Songtextes mittels ChatGPT stellt eine urheberrechtliche Vervielfältigung dar.
Dies hat das Landgericht München I (Endurteil 11.11.2025 – 42 O 14139/24) erstinstanzlich in einer viel beachteten Klage der GEMA gegen OpenAI entschieden und noch zu einer Reihe weiterer, aktuell hochdiskutierten Fragen im Zusammenhang mit KI-Sprachmodellen Stellung genommen.
Die Text- und Datenmining Schranke der §§ 44b und 60d UrhG greife – zumindest in dem zur Entscheidung stehenden Fall – nicht. Weder liege ein Text- und Datamining mit dem vorliegend angegriffenen KI-Training vor, noch seien die Gesellschaften von OpenAI als Forschungseinrichtungen zu qualifizieren.
Es liege auch keine Einwilligung für die jeweiligen Vervielfältigungen vor, da sich überwiegend Nutzungsvorbehalte feststellen ließen.
OpenAI hafte darüber hinaus nicht nur für die Vervielfältigungen der Songtexte im Rahmen des KI-Trainings sondern auch für den Output, den die Nutzer erzeugen.
Zusammengefasst lässt sich sagen, dass das LG München I damit Antworten, auf die derzeit wohl wichtigsten Fragen im Zusammenhang mit der Nutzung von KI-Tools gegeben hat.
Das Urteil stellt in Deutschland eine der ersten Grundsatzentscheidungen zu KI-Sprachmodellen dar neben dem Urteil des Landgerichts Hamburg (Urteil vom 27.09.2024, 310 O 227/23), vgl. mein Beitrag.
1. Der Sachverhalt
Die Verwertungsgesellschaft GEMA, die ihr übertragene Nutzungsrechte an Werken der Musik wahrnimmt, hatte zwei Gesellschaften der OpenAI-Gruppe, Anbieter des bekannten Chatbots „ChatGPT“, u.a. auf Unterlassung und Schadensersatz wegen unerlaubter Übernahme von Liedtexten (u.a. von Herbert Grönemeyer, Reinhard Mey und Rolf Zuckowski) verklagt.
Im Impressum ihrer Website hatte die GEMA nach Inkrafttreten der Vorschrift des § 44b UrhG einen Text und Data Mining Nutzungsvorbehalt für die in ihrem Repertoire enthaltenen Werke erklärt.
Die streitgegenständlichen Liedtexte waren in den Trainingsdaten enthalten, mit denen die Modelle 4 und 4o der Beklagten trainiert wurden.
Hierbei ging das Gericht von mehreren Trainingsphasen aus:
In einer Pre-Trainingsphase wurden die Trainingsdaten, soweit erforderlich, in für Maschinen lesbaren Text umgewandelt und das Modell wird durch die Bildung von Parametern erzeugt.
In einer weiteren Trainingsphase wurden die Modelle mit ausgewählten Prompts und hiermit korrespondierenden idealen Outputs trainiert, damit ein möglichst passender Output produziert werden kann. Zudem wurden den Modellen menschliche Präferenzen im Hinblick auf bspw. Verständlichkeit, Relevanz und Höflichkeit unter Einsatz von menschlichen Gutachtern beigebracht.
Durch einfach gehaltene Prompts wie z.B. „Wie lautet der Text von [Liedtitel]“ hatte die GEMA herausgefunden, dass die streitgegenständlichen Liedtexte als Outputs in veränderten Fassungen wiedergegeben wurden.
Die GEMA nutzte bei diesen Anfragen sowohl den Chatbot mit dem Modell 4 als auch benutzerdefinierte Agenten, die auf dem Modell 4o basierten, unter verschiedenen Accounts und deaktivierter Online-Suche. Die Agenten hatten jeweils die Rollenzuweisung ein „Experte für Liedtexte“ zu sein.
Nachdem die GEMA mit Schreiben vom 19.12.2023 OpenAI zunächst auf den Nutzungsvorbehalt auf ihrer Website aufmerksam gemacht hatte erfolgte am 06.11.2024 eine Abmahnung, die in die vorliegende Klage mündete.
Das Landgericht München I hat die Klage überwiegend für begründet gehalten und der GEMA die geltend gemachten Ansprüche aufgrund der Verletzung von urheberrechtlichen Nutzungsrechten zugesprochen.
2. Vervielfältigung durch Training (nicht Pre-Training)
Nach Überzeugung des Landgerichts seien die streitgegenständlichen Liedtexte in den Modellen enthalten gewesen.
Es finde beim Training der Modelle eine sog. Memorisierung statt (Hervorhebungen durch mich):
„[…] Zutreffend ist hingegen zu differenzieren zwischen Vervielfältigungen, die lediglich der Überführung in ein digitales Format dienen oder zu Analysezwecken erstellt werden, und Vervielfältigungen, die im Modell verbleiben. In Anlehnung an Spindler (GRUR 2016, 1112) sowie dem LG Hamburg folgend (27.09.2024, 310 O 227/23 Rn. 46 – LAION) sind die zeitlich aufeinanderfolgenden Phasen zu unterscheiden:
(1) das Extrahieren und die Überführung des Trainingsmaterials in ein maschinenlesbares Format, dem Erstellen des Trainingsdatenmaterials,
(2) die Analyse des Datenmaterials und ihre Anreicherung mit Meta-Informationen, dem Training des Modells, und
(3) die nachfolgende Nutzung des trainierten Modells durch Prompts und Outputs.
Für den geltend gemachten Unterlassungsanspruch aufgrund der Vervielfältigungen nach § 16 UrhG im Modell ist die dargestellte Phase 2 relevant. Die streitgegenständlichen Liedtexte sind in den Modellen reproduzierbar enthalten. Deren Memorisierung stellt eine urheberrechtlich relevante Vervielfältigung dar.“
[…]
aa. Aus der informationstechnischen Forschung ist bekannt, dass Trainingsdaten in Modellen enthalten sein können und sich als Outputs extrahieren lassen, was als Memorisierung bezeichnet wird (vgl. nur C , 2021, Extracting Training Data from Large Language Models, Anlage K 23.1; Yang,,,, 2024, Unveiling Memorization in Code Models, K 23.8; Cooper, Grimmelmann, 2025, The Files are in the Computer, K 23.9). Eine solche Memorisierung liegt vor, wenn die unspezifischen Parameter beim Training dem Trainingsdatensatz nicht nur Informationen entnehmen, sondern sich in den nach dem Training spezifizierten Parametern eine vollständige Übernahme der Trainingsdaten findet.
[…]
Die Memorisierung von Trainingsdaten kann mittels verschiedener Methoden nachgewiesen werden. Sind die Trainingsdaten bekannt, ist ein Abgleich der Trainingsdaten mit Outputs bei Verwendung einfacher Prompts und hinreichender Textlänge zur Feststellung der Memorisierung möglich. […]
Die Memorisierung kann vorliegend bereits durch einen Abgleich der Liedtexte mit den Outputs festgestellt werden. Die Verwendung der streitgegenständlichen Liedtexte als Trainingsdaten ist unstreitig. Ausweislich der Anlage K 2 sind die streitgegenständlichen Liedtexte durch die sehr einfach gehaltenen Prompts „Wie lautet der Text von [Liedtitel]“, „Von wem stammt der Text“, „Wie lautet der Refrain von [Liedtitel]“, „Bitte nenne mir auch die 1. Strophe“, und „Bitte nenne mir auch die 2. Strophe“ deutlich wiedererkennbar in den vorgelegten Outputs wiedergegeben worden.“
Diese Memorisierung stelle eine Vervielfältigung gemäß § 16 Abs. 1 UrhG dar, weil die streitgegenständlichen Texte in den Modellen körperlich festgelegt waren und mittelbar wahrnehmbar gemacht werden konnten, insbesondere:
„Für die urheberrechtliche Vervielfältigung kann offenbleiben, wie die Memorisierung im Einzelnen funktioniert. Es ist unerheblich, ob von einem Speichern oder Kopieren der Trainingsdaten gesprochen wird, oder, wie die Beklagten es formulieren, das Modell in seinen Parametern reflektiert, was es basierend auf dem gesamten Trainingsdatensatz erlernt habe, nämlich Beziehungen und Muster aller Wörter beziehungsweise Token, die die Vielfalt der menschlichen Sprache und ihrer Kontexte abbildeten. Denn entscheidend ist, dass die Liedtexte, die als Trainingsdaten dienten, im Modell reproduzierbar enthalten und somit verkörpert sind.“
3. Training (nicht Pre-Training) kein Text- und Datamining nach 44b UrhG
Die so im Rahmen des Trainings (Phase 2) geschehenen Memorisierungen fielen nach Meinung des Gerichts nicht unter die Schranke des Text- und Datamining im Sinne des § 44b UrhG.
„Sprachmodelle wie die streitgegenständlichen Modelle unterfallen grundsätzlich dem Anwendungsbereich der Text und Data Mining Schranken. Die Vorschriften decken erforderliche Vervielfältigungen beim Zusammenstellen des Datenkorpus in Phase 1 (s.o.), nicht aber weitergehende Vervielfältigungen im Modell in Phase 2. Werden wie vorliegend beim Training in Phase 2 nicht nur Informationen aus Trainingsdaten extrahiert, sondern Werke vervielfältigt, stellt dies kein Text und Data Mining dar. Auch wenn die Schrankenbestimmungen grundsätzlich auf das Training von Modellen Anwendung finden, sind Vervielfältigung im Modell keine Vervielfältigungen, die von der Schrankenbestimmung erfasst sind, da sie nicht nur zur Vorbereitung des Text und Data Mining dienen.
[…]
Die durch die Memorisierung im Modell gegebenen Vervielfältigungen wurden nicht zur Erstellung des Trainingsdatensatzes und somit im Rahmen der Phase 1 gefertigt, in der keine Verwertungsinteressen der Urheber tangiert sind, sondern sie sind zusätzlich beim Trainieren des Modells in Phase 2 erfolgt. Die Prämisse des Text und Data Mining und der diesbezüglichen Schrankenbestimmungen, dass durch die automatisierte Auswertung von bloßen Informationen selbst keine Verwertungsinteressen berührt sind, greift in dieser Konstellation nicht. Im Gegenteil, durch die gegebenen Vervielfältigungen im Modell wird in das Verwertungsrecht der Rechteinhaber eingegriffen. Ein derartiger Eingriff ist nicht durch die Schrankenbestimmung des § 44b UrhG gedeckt.“
Das Landgericht München I hielt auch eine analoge Anwendung der Schrankenbestimmung nicht für möglich.
„Eine mutmaßlich technik- und innovationsfreundliche Auslegung, die ebenfalls Vervielfältigungen im Modell von der Schranke als gedeckt ansehen wollte, verbietet sich angesichts des klaren Wortlauts. Ebenso wenig kommt eine analoge Anwendung von Art. 4 DSM-RL in Betracht, die eine planwidrige Regelungslücke sowie eine vergleichbare Interessenlage des geregelten und zu regelnden Sachverhalts voraussetzt (zur Analogie im Unionsrecht vgl. Schön, FS Canaris, 2017, 147, 153 ff, 160). Selbst wenn man eine planwidrige Regelungslücke annehmen wollte, weil dem Gesetzgeber die Memorisierung und eine damit einhergehende dauerhafte urheberrechtlich relevante Vervielfältigung in den Modellen nicht bewusst gewesen sein sollte, mangelt es an einer vergleichbaren Interessenlage. Die Schrankenregelung normiert mit der Zulässigkeit vorbereitender Vervielfältigungshandlungen beim Text und Data Mining einen Sachverhalt, bei dem die Verwertungsinteressen der Urheber nicht gefährdet sind, weil bloße Informationen extrahiert und das Werk als solches gerade nicht vervielfältigt wird. Bei Vervielfältigungen im Modell wird die Werkverwertung hingegen nachhaltig beeinträchtigt und die berechtigten Interessen der Rechteinhaber hierdurch verletzt. Die Urheber und Rechteinhaber würden durch eine analoge Anwendung der Schrankenbestimmung, die keine Vergütung für die Verwertung vorsieht, somit schutzlos gestellt. Dies widerspräche klar dem Erwägungsgrund 17 der DSM-RL, demzufolge der durch die Schrankenbestimmungen bestehende Schaden für die Rechteinhaber nur „minimal“ ist (vgl. Raue, ZUM 2019, 684, 686). Hinzu kommt, dass das Risiko der Memorisierung allein aus der Sphäre der Betreiber von Modellen als Verletzer stammt. Bei einer Analogie der Schranke würde ausschließlich der verletzte Rechteinhaber dieses Risiko tragen (vgl. Sesing-Wagenpfeil, ZGE 2024, 212, 260).“
4. Keine Forschungseinrichtung nach 60d UrhG
Anders als noch in dem vom Landgericht Hamburg (Urteil vom 27.09.2024, 310 O 227/23) zu beurteilenden Sachverhalt konnten sich die Beklagten hier nicht darauf berufen, gemeinnützige Zwecke zu verfolgen, um von der Text- und Datamining-Schranke des § 60d UrhG zu profitieren.
Die Beklagten seien – so das Gericht – keine Forschungseinrichtungen gemäß § 60d UrhG:
„Art. 2 Nr. 1 DSM-RL definiert als Forschungsorganisation eine „Einrichtung, deren vorrangiges Ziel die wissenschaftliche Forschung oder die Lehrtätigkeit […] ist“. Eine Organisation ist somit als Forschungseinrichtung zu qualifizieren, wenn sie das Ziel des Erkenntnisgewinns verfolgt (Kuschel/Rostam, ZUM 2025, 71, 72). Eine gewinnorientierte Tätigkeit führt im Gegensatz zu § 60d UrhG a.F. nicht zwingend dazu, das Vorliegen einer Forschungseinrichtung zu verneinen. Verfolgt eine Einrichtung kommerzielle Zwecke, dann müssen nach Art. 2 Nr. 1 lit. a, b DSM-RL und dem entsprechenden § 60d Abs. 2 Nr. 2 und 3 UrhG weitere Kriterien erfüllt sein, um sie als Forschungseinrichtung anzusehen: sie muss entweder sämtliche Gewinne in die wissenschaftliche Forschung reinvestieren oder im Rahmen eines staatlich anerkannten Auftrags im öffentlichen Interesse tätig sein. Das Vorliegen dieser Voraussetzungen haben die Beklagten bereits nicht behauptet.“
5. Keine Einwilligung durch übliche Nutzungshandlungen
Da aus Sicht des Gerichts kein Text- und Datamining vorlag, musste folglich auch nicht mehr explizit geprüft werden, ob der im Impressum der Webseite der GEMA erklärte Nutzungsvorbehalt wirksam war oder es eines maschinenlesbaren Hinweises (insbes. per robots.txt-Datei) bedurft hätte.
Jedoch streifte das Gericht die Frage, indem es ausdrücklich prüfte und feststellte, dass die GEMA zumindest nichts getan habe, was auf eine Einwilligung in Gestalt eines freien Zugänglichmachens der Liedtexte hätte schließen können
„Vorliegend ist bereits strittig, ob die streitgegenständlichen Liedtexte frei zugänglich waren. Die Beklagten trifft hierfür die Darlegungs- und Beweislast. Selbst wenn die Klägerin eine sekundäre Darlegungslast trüge, hat sie ihr durch ihren Vortrag entsprochen: sie führt aus, die Liedtexte seien nicht mit der Zustimmung der Rechteinhaber im Internet frei verfügbar. Auch für die von den Beklagten benannten Liedtextkopien, die vermeintlich ohne Nutzungsvorbehalt im Internet verfügbar gewesen seien, ließen sich ausweislich der Screenshots der Websites (Anlagen K 56, 57) überwiegend Nutzungsvorbehalte feststellen. Zudem habe die Klägerin keine Lizenzen für eine Online-Nutzung der streitgegenständlichen Liedtexte erteilt, und bei der Lizenzierung anderer Bereiche habe sie ihre Lizenznehmer konsequent zur Einhaltung des Text und Data Mining Nutzungsvorbehalts verpflichtet.“
6. Haftung von OpenAI auch für nutzergenerierten Output
Schließlich verurteilte das Landgericht die Beklagten auch bezüglich der Vervielfältigung und des öffentlichen Zugänglichmachens der wiedererkennbaren Liedtexte in den Outputs.
Die wiedererkennbaren Outputs seien den Beklagten zuzurechnen.
Entgegen der Auffassung der Beklagten könne angesichts derart offener Prompts nicht dem Nutzer die Urheberrechtsverletzung durch die Outputs zugewiesen werden.
„Die Beklagen begehen die Handlung der Wiedergabe unmittelbar. Sie selbst eröffnen der Öffentlichkeit den Werkgenuss, und treten nicht lediglich als Vermittler auf, indem sie beispielsweise nur die Infrastruktur für die Wiedergabehandlung Dritter bereitstellen. Da die Beklagten für den Inhalt ihrer Modelle verantwortlich sind, und diese Inhalte durch einfache Prompts wiedergegeben werden, können die Beklagten in ihrer Tätigkeit nicht mit Betreibern von Hosting-Plattformen oder Bereitstellern von Hard- oder Software verglichen werden. Für derart lediglich mittelbar am Sachverhalt Beteiligter bedarf es nach der Rechtsprechung des Unionsgerichtshofs zusätzlicher Merkmale, um eine Handlung der Wiedergabe zu bejahen. Der Unionsgerichtshof prüft in diesen Fällen eine Reihe weiterer Kriterien, die zu berücksichtigen und die unselbstständig und miteinander verflochten sind (EuGH 22.06.2021 C-682/18, C-683/18 Rn. 67 – YouTube und Cyando; 20.04.2023, C-775/21, C-826/21 Rn. 53 – Blue Air Aviation; 13.07.2023, C-426/21 Rn. 58 – Ocilion) und fordert insbesondere die zentrale Rolle des Anbieters und der Vorsätzlichkeit seines Tätigwerdens (EuGH 20.06.2024, C-135/23 Rn. 23 – GEMA). Derartige Verkehrspflichten sind haftungserweiternd, weil sie den Kreis der verantwortlichen unmittelbaren Verletzer um mittelbare Verletzer erweitern. Liegt hingegen wie vorliegend eine unmittelbare Nutzungshandlung vor, ist die Rechtsverletzung indiziert (Ohly GRUR 2018, 996, 1001), und es bedarf bereits nicht der Prüfung weiterer Kriterien.
[…] Ohnehin wäre aber auch bei zusätzlicher Prüfung dieser genannten weiteren Kriterien eine Wiedergabehandlung der Beklagten gegeben. Die Beklagten spielen eine zentrale Rolle bei der Wiedergabe. Nur aufgrund der Memorisierung der streitgegenständlichen Liedtexte sind diese durch einfache Prompts als Outputs abrufbar. Die Beklagten bestimmen die Funktionsweise der Modelle und die Auswahl von Trainingsdaten und die Ausgestaltung des Trainings. Die Prompts zum Abruf sind inhaltlich einfach und in der Bedienungsführung leicht, weil unabhängig von einer bestehenden Ordnerstruktur und einem Steuerungsmenü lediglich der gewünschte Befehl eingegeben werden muss. Die Beklagten handeln auch in voller Kenntnis der Folgen ihres Verhaltens, da sie wie bereits dargestellt zumindest seit 2021 Kenntnis von der Memorisierung in ihren Modellen haben. Nicht unerheblich ist zudem, dass die Wiedergabe durch die Beklagten Erwerbszwecken dient, auch wenn der Erwerbszweck keine zwingende Voraussetzung ist (vgl. EuGH 20.06.2024, C-135/23 Rn. 24 ff – GEMA).“
Die unmittelbare Haftung gelte nicht nur im Hinblick auf die öffentliche Wiedergabe in Gestalt des öffentlichen Zugänglichmachens, sondern auch bezüglich der Vervielfältigung.
„Die Beklagten sind als Täter einzuordnen, denn sie üben die Tatherrschaft über die Vervielfältigung durch die Outputs aus. Die Beklagten betreiben die Modelle, für die die streitgegenständlichen Liedtexte als Trainingsdaten ausgewählt und mit denen sie trainiert worden sind. Sie sind für die Architektur der Modelle und die Memorisierung der Trainingsdaten verantwortlich. Die Beklagten haben die Tatherrschaft auch nicht an den Nutzer als Prompter verloren, wie dies der Fall sein könnte, wenn Outputs durch den Nutzer provoziert werden. Die streitgegenständlichen Outputs sind durch einfach gehaltene Prompts generiert worden. Damit haben die von den Beklagten betriebenen Modelle die ausgegebenen Outputs maßgeblich beeinflusst, der konkrete Inhalt der Outputs wurde von den Modellen generiert. Die bloße Auslösung der Vervielfältigung durch Eingabe eines Prompts führt nicht dazu, den Nutzer als Vervielfältiger anzusehen.“
Da der Output unter die Nutzung (Phase 3) der vom Gericht angenommenen Phasen fällt, kam eine Rechtfertigung nach § 44b Abs. 2 S. 1 UrhG oder § 60d UrhG folglich ebenfalls nicht in Betracht.
7. Fazit: „Entscheidend ist, was hinten rauskommt.“
Aus Sicht der Urheber und anderer Rechteinhaber handelt es sich offensichtlich um eine sehr erfreuliche Entscheidung.
Zugleich handelt es sich um eine Entscheidung, die vor allem in den beruflichen sozialen Medien von Beginn an kontrovers diskutiert wurde.
So sei das Urteil etwa bereits von vornherein überholt, da es sich nur auf die Modelle 4 und 4o beziehe. Weitere Kommentare warfen dem Landgericht München I vor, es habe Amtsermittlung betrieben oder technisch womöglich keine Ahnung, ja gar „nach Gefühl“ entschieden.
Diesen Vorwürfen ist gemein, dass sie sich allesamt auf den das Training betreffenden Teil beziehen.
Allerdings sagte bereits Helmut Kohl: „Entscheidend ist, was hinten rauskommt.“
Viel bedeutsamer als die Frage, ob Training eine Vervielfältigung darstellt, ist meiner Meinung nach die Frage, ob KI-Unternehmen quasi für ihre Nutzer haften.
Denn abgesehen von der Tatsache, dass das Landgericht München I seine Entscheidung auf den Vortrag der Parteien gestützt und auf 42 Seiten ausführlich begründet hat, Vorwürfe daher unbegründet sind, wird meiner Meinung nach übersehen, dass der die Vervielfältigung betreffende Teil weggedacht werden könnte, ohne dass es ein faktisch anderes Ergebnis gäbe. Denn die Verurteilung wegen des Outputs bliebe jedenfalls bestehen, sodass es KI-Unternehmen obläge, idealerweise bereits das Training mit geschütztem Material zu verhindern.
Das Landgericht München I hat seine Entscheidung insoweit auf mehrere Standbeine gestellt.
Daher spielt die Musik im vorliegenden Fall womöglich eher bei der Frage, ob der Output OpenAI unmittelbar oder mittelbar zuzurechnen ist (das Landgericht hat für den vorliegenden Fall beides geprüft und bejaht).
Die Entscheidung ist nicht rechtskräftig und es dürfte mit an Sicherheit grenzender Wahrscheinlichkeit davon auszugehen sein, dass der Fall weitere Instanzen beschäftigen wird.
Sie möchten Inhalte zum KI-Training verwenden und fragen sich, ob dies urheberrechtlich zulässig ist? Oder Sie befürchten, dass jemand unerlaubt Ihre Werke zum Training einer KI verwendet?
Nehmen Sie jetzt Kontakt auf. Als erfahrener Anwalt im Urheberrecht unterstütze ich Sie bei der rechtssicheren Nutzung von kreativen Leistungen und setze Ihre Rechte durch, wenn Ihre Werke ohne Erlaubnis verwendet werden.
