Oktober 2024 Blog

Erstellung von KI-Trainingsdatensätzen als Text- und Datamining zulässig

Das Landgericht Hamburg hatte sich erstmals mit der Nutzung urheberrechtlich geschützter Werke zur Erstellung von KI-Trainingssätzen auseinanderzusetzen. Mit Urteil vom 27.09.2024, Az. 310 O 227/23 entschied das Landgericht über die urheberrechtliche Zulässigkeit der Erstellung von KI-Trainingsdatensätzen mit dieser wegweisenden Entscheidung.

Sachverhalt

Künstliche Intelligenz (KI) benötigt große Mengen an Daten für das Training. Eine gängige Methode zur Sammlung dieser Daten ist das Data-Scraping, bei dem automatisierte Programme (Bots oder Crawler) das Internet durchsuchen und Informationen von Webseiten extrahieren.

Dem vorliegenden Fall lag eine Klage eines Fotografen gegen den gemeinnützigen Verein LAION, der zur Förderung der KI-Forschung offene Datensätze bereitstellt, zugrunde. Einer dieser Datensätze, LAION 5B, umfasst fast sechs Milliarden Bild-Text-Kombinationen. Darunter war auch ein Bild des Klägers, das von LAION für den Trainingsdatensatz verwendet wurde.

Der Kläger ist Produzent und Fotograf von Stockfotos, die dieser über diverse Stockfoto-Plattformen vertreibt, so auch das streitgegenständliche Bild auf der Plattform „Bigstock“ von wo aus LAION das Bild gezogen hat. Die Nutzungsbedingungen von Bigstock untersagen jedoch die Verwendung der Bilder für „automated programs“. Der Kläger sah in der Nutzung seines Bildes zu Trainingszwecken für die KI als Urheberrechtsverletzung an.

Entscheidung

Das Gericht wies die Klage als unbegründet ab. Nach Auffassung des Landgerichts handelt es sich bei der Nutzung des Bildmaterials für das Training der KI zwar um eine Vervielfältigung der Bilder, jedoch fällt diese unter die Schrankenbestimmung des § 60d UrhG für wissenschaftliches Text- und Datamining, kurz TDM.

§ 44b Abs. 1 UrhG liefert hierzu eine Legaldefinition:

„Text und Data Mining ist die automatisierte Analyse von einzelnen oder mehreren digitalen oder digitalisierten Werken, um daraus Informationen insbesondere über Muster, Trends und Korrelationen zu gewinnen.“

§ 44b Abs. 2 UrhG und § 60d UrhG enthalten dazu entsprechende Schrankenregelungen, die eine Nutzung urheberrechtlich geschützter Werke zum Zwecke des TDM zulassen.

Nun hat das Landgericht Hamburg in seiner Grundsatzentscheidung festgestellt, dass es sich bei einer Vervielfältigung durch Speicherung des Bildmaterials zur Erstellung eines Trainingsdatensatzes um Text- und Datamining gemäß § 44b Abs. 1 UrhG handelt.

Das Herunterladen von Trainingsdatensätzen ist also als Text- und Datamining zu verstehen.Das Gericht reagiert damit auf eine im Schrifttum vereinzelt verbreitete Ansicht, dass § 44b UrhG nur die Erschließung „in den Daten verborgener Informationen“, nicht aber die Nutzung „des Inhalts der geistigen Schöpfung“ erfassen soll. Daneben argumentiert ein Teil auch damit, dass bei der Schaffung der Schrankenregelungen in § 44b und § 60d UrhG „schlicht nicht auf dem Schirm gehabt habe“.

Das Gericht entgegnet dem, dass jedenfalls durch die neue KI-Verordnung (Verordnung (EU) 2024/1689) eindeutig zum Ausdruck gebracht wurde, dass auch die Erstellung von zum Training künstlichen neuronalen Netzen bestimmten Datensätzen der Schrankenregelung des Art. 4 DSM-Richtlinie (EU 2019/790) unterfällt. Nach Art. 53 Abs. 1 lit. c der KI-Verordnung sind Anbieter von KI-Modellen verpflichtet, sicherzustellen, dass alle bestehenden Rechtsvorbehalte berücksichtigt werden. Dabei verweist Art. 53 Abs. 1 der KI-Verordnung auf Art. 4 der DSM-Richtlinie, der europäischen Vorlage zu Schrankenregelungen des Text- und Datamining. Darauf schlussfolgert das Gericht, dass eine entsprechende Schrankenregelung für TDM, wie § 44b und § 60d UrhG auch auf die Erstellung von KI-Trainingsdatensätzen Anwendung findet.

Die Schrankenregelung in § 60d UrhG erlaubt dabei Text- und Datamining für wissenschaftliche Zwecke, solange keine kommerziellen Ziele verfolgt werden. Das Gericht erkannte, dass LAIONs Ziel der Förderung der Forschung mit der Bereitstellung der Daten erfüllt wurde. Nach Ansicht des Gerichts reicht es aus, dass der Datensatz von LAION kostenlos veröffentlicht wird und damit zumindest auch den Forschern im Bereich der künstlichen neuronalen Netze zur Verfügung gestellt wird.

Obwohl das Gericht sich auf den Ausnahmetatbestand des § 60d UrhG stützte, führte es dennoch kurz zur Schrankenregelung des § 44b UrhG aus. § 44b Abs. 2 S. 1 UrhG regelt, dass Vervielfältigungen rechtmäßig zugänglicher Werke zum Zwecke des TDM erlaubt sind.

Gemäß § 44b Abs. 3 UrhG gilt dies jedoch nicht, wenn der Rechteinhaber einen Nutzungsvorbehalt erklärt, der „maschinenlesbar“ ist. Bisher war umstritten, ob eine Erklärung in „natürlicher Sprache“, etwa innerhalb der auf der Seite verfügbaren Nutzungsbedingungen, für einen maschinenlesbaren Nutzungsvorbehalt ausreicht, wie es in § 44b UrhG und Art. 4 Abs. 3 der DSM-Richtlinie gefordert wird. Das Landgericht Hamburg bejahte nun diese Frage. Moderne KI-Anwendungen sind nach Einschätzung des Landgerichts bereits in der Lage, natürliche Sprache zu verstehen und zu verarbeiten.

Das Gericht begründete dies auch damit, dass die neue KI-Verordnung der EU vorschreibt, Anbieter von KI-Technologien müssen „modernste Technologien“ einsetzen, um Rechtsvorbehalte zu identifizieren und zu berücksichtigen (Art. 53 Abs. 1 lit. c KI-Verordnung). Dazu gehören nach Ansicht des Landgericht Hamburg auch KI-Systeme, die Vorbehalte in natürlicher Sprache interpretieren können.

Das Gericht stellte demnach fest, dass ein in den Nutzungsbedingungen der Plattform enthaltenes Verbot des automatisierten Herunterladens den Anforderungen an die Maschinenlesbarkeit wohl genügt.

Praxishinweis

Das Urteil ist ein bedeutender Schritt zu mehr Klarheit zum Anwendungsbereich der TDM-Schrankenregelungen und zeigt, dass die Erstellung von Trainingsdatensätzen zur „Fütterung“ der KI mittels frei zugänglicher Werke für wissenschaftliche Zwecke zulässig ist. Sie können ebenfalls auch nach § 44 Abs. 1 UrhG zulässig sein, soweit kein Nutzungsvorbehalt besteht.

Ob sich die Interpretation der Vorschriften durchsetzen wird bleibt jedoch abzuwarten, insbesondere bleibt abzuwarten, ob ein Nutzungsvorbehalt in „natürlicher Sprache“ tatsächlich ausreichend ist.