November 2025 Blog

KI: Die Memorisierung von Trainingsdaten verletzt Urheberrecht

Das Landgericht München I hat OpenAI wegen Urheberrechtsverletzungen durch das Training seiner GPT-Modelle verurteilt. Die Entscheidung definiert neue Maßstäbe für den Einsatz geschützter Werke beim KI-Training.

GEMA vs OpenAI: Darum ging es

Die Verwertungsgesellschaft GEMA klagte als Rechteinhaberin gegen OpenAI, weil die GPT-Modelle 4 und 4o deutsche Liedtexte – darunter „Atemlos", „Männer" und „Über den Wolken" – ohne Lizenz als Trainingsdaten verwendet hatten. Bei einfachen Abfragen wie „Wie lautet der Text von [Liedtitel]?" gab der Chatbot die Texte weitgehend korrekt, teilweise mit Abweichungen wieder. Unstreitig war, dass die Texte in den Trainingsdaten enthalten waren. OpenAI argumentierte, das Modell speichere keine konkreten Texte, sondern lerne nur statistische Muster. Die Ausgaben seien eigenständige Generierungen, keine Kopien.

LG München I: KI Training verletzt Urheberrechte!

Das Gericht gab der Klage weitgehend statt und verurteilte OpenAI zu Unterlassung, Auskunft und Schadensersatz dem Grunde nach.

Vervielfältigung durch „Memorisierung"

Die zentrale Feststellung des Gerichts war dabei, dass die Liedtexte bereits im Sprachmodell von OpenAI selbst vervielfältigt sind. Das Gericht stellte fest, dass Trainingsdaten unter bestimmten Umständen – insbesondere bei mehrfachem Vorkommen im Trainingssatz – nicht nur analysiert, sondern vollständig in die Modellparameter übernommen werden. Dieser Effekt tritt ein, wenn bestimmte Textfolgen häufig in den Trainingsdaten vorkommen und damit von dem algorithmischen Sprachmodell als besonders relevant gewichtet und damit „memorisiert“ werden. Diese „Memorisierung" führt im Output dazu, dass die exakte Tokenfolge des Originaltexts statistisch hochwahrscheinlich wird.

Das Gericht wertete dies als körperliche Festlegung im Sinne des Urheberrechts. Die Liedtexte seien im Modell reproduzierbar enthalten und könnten mittels technischer Hilfsmittel mittelbar wahrnehmbar gemacht werden. Die Zerlegung in Parameter sei unschädlich – vergleichbar mit progressiv gespeicherten Bilddateien, bei denen Informationen ebenfalls verstreut sind.

Text & Data Mining-Schranke greift nicht

OpenAI berief sich auf die Text & Data Mining-Schranke. Das Gericht differenzierte zwischen drei Phasen: Die Überführung in maschinenlesbares Format und das Training mit Datenanalyse seien grundsätzlich von der Schranke gedeckt. Nicht erfasst sei jedoch die dauerhafte Vervielfältigung durch Memorisierung im Modell, da diese keiner weiteren Datenanalyse diene, sondern dauerhaft im Modell verbleibe. Die Schranke erlaube nur Vervielfältigungen zum Zwecke des Text und Data Mining – memorisierte Inhalte beeinträchtigten aber Verwertungsinteressen.

Verletzungen durch die Outputs

Das Gericht sah zusätzlich Urheberrechtsverletzungen in den Ausgaben: Die Outputs stellen Vervielfältigungen dar, die im Arbeitsspeicher der Nutzer und in der Chat-Historie gespeichert werden. Als Hersteller dieser Vervielfältigungen sei OpenAI anzusehen, da das Unternehmen die Modelle betreibe, deren Architektur verantworte und die Memorisierung aus seiner Sphäre stamme. Die einfachen Prompts hätten keinen konkreten Inhalt vorgegeben.

Zudem liege eine öffentliche Zugänglichmachung vor: OpenAI eröffne als Betreiber einer unbestimmten Zahl von Nutzern den Zugriff auf die memorisierten Texte. Dies stelle ein „neues Publikum" dar, selbst wenn die Texte rechtmäßig auf Webseiten verfügbar gewesen wären.

Keine Unverhältnismäßigkeit

Das Gericht wies das Argument zurück, ein Unterlassungsanspruch sei unverhältnismäßig. OpenAI könne ein neues Modell trainieren oder Lizenzen einholen. Auch eine Aufbrauchfrist von sechs Monaten wurde abgelehnt, da OpenAI seit der Abmahnung im November 2024 über ein Jahr Zeit gehabt habe. Das Gericht stellte zudem fest, dass OpenAI mindestens fahrlässig gehandelt habe, da dem Unternehmen die Memorisierungs-Problematik seit 2021 bekannt sei.

Praxishinweis

Die Entscheidung hat erhebliche Auswirkungen für Entwickler und Nutzer von KI-Systemen:

  • Für KI-Entwickler: Die Memorisierung ist die zentrale Haftungsfalle. Es reicht nicht aus, Outputs nachträglich zu filtern – die Urheberrechtsverletzung liegt bereits im Modell. Erforderlich sind effektive Deduplizierung der Trainingsdaten, technische Safeguards gegen Memorisierung und Lizenzierung urheberrechtlich geschützter Inhalte. Das „rare bug"-Argument wurde nicht akzeptiert.
  • Für Rechteinhaber: Memorisierung ist nachweisbar durch Abgleich von Outputs mit eigenen Werken unter Verwendung einfacher Prompts. Die Entscheidung gewährt durchsetzbare Ansprüche auf Unterlassung, Auskunft, Schadensersatz und Urteilsveröffentlichung.
  • Für KI-Nutzer: Unternehmen sollten bei der Auswahl von KI-Anbietern vertraglich die Lizenzierung der Trainingsdaten und Freistellungen bei Urheberrechtsverletzungen prüfen. Bei eigener KI-Entwicklung sind Herkunft der Trainingsdaten zu dokumentieren und Tests auf Memorisierung durchzuführen.

Das Urteil ist nicht rechtskräftig. OpenAI hat Berufung angekündigt. Parallel läuft ein Vorabentscheidungsverfahren vor dem EuGH zu vergleichbaren Fragen. Die Münchener Entscheidung ist dennoch die bislang detaillierteste gerichtliche Auseinandersetzung mit den urheberrechtlichen Implikationen des KI-Trainings in Europa und signalisiert eine strenge Linie gegenüber Memorisierung.

(LG München I, Urteil vom 11.11.2025 – 42 O 14139/24)

Anmeldung zum GvW Newsletter

Melden Sie sich hier zu unserem GvW Newsletter an - und wir halten Sie über die aktuellen Rechtsentwicklungen informiert!