Was Sie beim Self-Hosting von LLMs wissen müssen
Die eigene KI im Serverraum klingt nach Kontrolle, Sicherheit und Science-Fiction. Meta, Google, DeepSeek und OpenAI stellen schon heute Sprachmodelle zum Download bereit. Doch wer unter anderem die folgenden Punkte nicht beachtet, riskiert spürbare rechtliche und wirtschaftliche Folgen.
Einführung
Ein LLM (Large Language Model) ist ein Sprachmodell, das Texte vorhersagt und erzeugt. Beim Betrieb des Modells auf eigener Hardware spricht man von Self-Hosting. Das hat gute Gründe wie Daten- und Geheimnisschutz, Unabhängigkeit und Kostenkontrolle. Ganz ohne Pflichten geht der Selbstbetrieb nicht einher.
Pflichten folgen auszugweise aus der Datenschutzgrundverordnung, den Lizenzvereinbarungen mit den KI bereitstellenden Unternehmen (nachfolgend „Sprachmodellhersteller“) und bald für alle auch aus der KI-Verordnung. Die KI-Verordnung gilt vollständig ab dem 2. August 2026. In Teilen greift die KI-Verordnung schon heute.
Bereits mit dem Download gelten die Lizenzvereinbarungen mit den Sprachmodellherstellern. Hieraus können sich unter anderem vertragliche Pflichten während des Bestehens und nach Beendigung der Vereinbarung ergeben.
„Open Source LLM“ oder doch nur „Open Weights“
Die Lizenzvereinbarungen geben deutliche Spielregeln vor, z.B. ob gewerblicher Gebrauch erlaubt, die Veröffentlichung der eigenen Weiterentwicklung oder Implementierung verpflichtend ist, usw. Zur Feststellung des konkreten Pflichtenkanons und der eingeräumten Freiheiten ist zwischen Open Source und Open Weights zu unterscheiden.
Open Source heißt vereinfacht gesprochen: Es liegt die Quelle vor (z.B Quellcode) und ich darf diese für jeden Zweck nutzen, verstehen, verändern und weitergeben. Übertragen auf ein LLM würde das bedeuten, dass
- der gesamte Quellcode für Training, Auswertung und Betrieb des Modells;
- die Trainingsdaten oder aussagekräftige Informationen zu deren Herkunft, Auswahl und Aufbereitung; und
- die Parameter des trainierten Modells (also Gewichte und Checkpoints des Modells)
offen vorliegen. Nur dann kann eine fachkundige Person ein im Wesentlichen gleichwertiges System nachbauen.
Open Weights heißt im Unterschied dazu: Nur die Gewichte (Endprodukt des trainierten Sprachmodells – Bullet Point 3 oben) liegen vor. Man kann damit arbeiten und diese oft auch feintunen. Insbesondere der Trainingsweg und die Trainingsdaten fehlen jedoch, sodass eine vollständige Reproduzierbarkeit meist nicht möglich ist.
Anschaulich dargestellt: Open Source ist der fertige Kuchen mit beigelegtem Rezept, Zutatenliste und Backanleitung. Open Weights hingegen ist der fertige Kuchen im Karton. Er ist essbar. Vielleicht kommt noch die eigene Glasur dazu. Das Rezept und was genau darin ist, bleibt hingegen verborgen.
In der Praxis veröffentlichen die Sprachmodellhersteller meist Open Weights.
Für Unternehmen heißt das: Erst sauber einordnen, dann die Lizenzbedingungen konsequent umsetzen. So wird aus frei zugänglich keine Compliance-Falle.
Stolperfalle 1: Lizenzverletzungen bei Open Weights
Wer Lizenzvereinbarungen nicht einhält, riskiert Post vom Anwalt. Open-Weight-Modelle stehen unter sehr unterschiedlichen Lizenzmodellen. Es bestehen auszugsweise die nachfolgenden Lizenzmodelle:
- Es gibt permissive Lizenzen wie Apache 2.0 oder MIT, die weitläufige Freiheiten bieten und wenige Beschränkungen enthalten.
- Es gibt Community- oder Herstellerlizenzen mit Nutzungsregeln wie Namens- und Hinweispflichten sowie Acceptable-Use-Policies (AUP). Über AUP kann zum Beispiel die Einhaltung von Datenschutzrecht und Exportkontrollrecht bzw. der Ausschluss für konkrete Verwendungszwecke wesentlicher Bestandteil der Lizenzvereinbarung sein. Die Lizenzvereinbarung von Meta für Llama enthält AUP.
- Es gibt Responsible-AI-Lizenzen mit Pass-Through-Pflichten für abgeleitete Modelle. Fast immer gilt: Wer Modelldateien weitergibt oder ein feingetuntes Modell bereitstellt, muss Lizenztexte und Hinweise mitliefern. Zweckbeschränkungen sind zu beachten.
Aus den Lizenzvereinbarungen ergeben sich für die Lizenzgeber häufig Kündigungsmöglichkeiten bei Vertragsbruch. Die Lizenzvereinbarungen regeln für den Fall der Vertragsbeendigung häufig vertragliche Beseitigungs- und Unterlassungsansprüche (z.B. Klausel Nr. 6 der Meta Llama 3 community license „[…]you shall delete and cease use“).
Neben den vertraglichen Ansprüchen können bei Lizenzverletzungen Ansprüche aus Urheberrecht hinzukommen. Nach deutschem Urheberrecht entsteht bei Verletzung der (urheberrechtlichen) Nutzungsrechte ein gesetzlicher Anspruch auf Unterlassung und Schadensersatz aus § 97 UrhG. Für die Schadensbemessung stellt § 97 Absatz 2 UrhG dem Rechteinhaber drei Berechnungsmethoden zur Wahl: Ersatz konkreter Vermögensschaden; Herausgabe des Verletzergewinns oder die Zahlung einer fingierten angemessenen Lizenzgebühr (Lizenzanalogie). Insbesondere die beiden letzten Berechnungsmethoden bilden empfindliche Risiken für den Verletzer im Urheberrecht.
Veröffentlichte Modellgewichte (Open Weights) fallen mangels menschlicher geistiger Schöpfung nach überwiegender Auffassung regelmäßig nicht unter urheberrechtlichen Schutz. Die Gewichte entstehen autonom während des maschinellen Trainings des Sprachmodells und stellen keine menschlich gestalterische Leistung dar. Hiervon abzugrenzen sind z.B. Architektur des LLM, bzw. Programmcode (z.B. Tokenizer, Laufzeitcode), die Urheberrechtsschutz genießen können.
Stolperfalle 2: Der sachliche Anwendungsbereich der KI-Verordnung
Die KI-Verordnung arbeitet risikobasiert. Es gibt verbotene Praktiken, Hochrisiko-KI-Systeme und allgemeine Pflichten bei geringem Risiko. Welche Pflichten konkret greifen, hängt davon ab, was betrachtet wird (Bezugsobjekt), wer handelt (Bezugssubjekt) und welche Risikostufe besteht.
Bezugsobjekt: KI-System oder KI-Modell
Die KI-Verordnung gibt etwas versteckt in Erwägungsgrund 97 S. 7 und 8 ein wichtiges Differenzierungsmerkmal an die Hand (7 Damit KI‑Modelle zu KI‑Systemen werden, ist die Hinzufügung weiterer Komponenten, zum Beispiel einer Nutzerschnittstelle, erforderlich. 8 KI‑Modelle sind in der Regel in KI‑Systeme integriert und Teil davon.). Ein KI-System ist die anwendbare Einheit. Es verarbeitet Eingaben des Nutzers und erzeugt Ausgaben für den Nutzer (Nutzerschnittstelle). Ein KI-Modell ist das zugrundeliegende Modell. Es kann in viele verschiedene Systeme integriert werden. Für die Praxis gilt: Das System ist die Anwendung mit Nutzerschnittstelle. Das Modell ist das technische Herzstück dahinter.
Bezugssubjekt: Anbieter oder Betreiber
Anbieter ist, wer ein KI-System oder ein Modell entwickelt oder entwickeln lässt und unter eigenem Namen in Verkehr bringt oder ein System unter eigenem Namen in Betrieb nimmt. Betreiber ist, wer ein KI-System in eigener Verantwortung verwendet. Die Rollen lösen unterschiedliche Pflichten aus.
Werde ich durch Feintuning des Sprachmodells selbst Anbieter? Wer ein bestehendes System wesentlich ändert, kann Anbieterpflichten auslösen. Das gilt auch, wenn ein bislang nicht hohes Risiko durch den neuen Zweck zu einem Hochrisiko-System wird. Werde ich zum Anbieter, wenn ich RAG (Retrieval Augmented Generation) verwende? Durch Einbezug externer Wissensquellen zur Entscheidungsfindung werden im Grundsatz die Gewichte/Parameter eines Sprachmodells nicht geändert. Solange man die sonstigen Anbietervoraussetzungen nicht erfüllt, führt RAG allein nicht zur Entstehung einer Anbieterrolle.
Fazit
Wer langfristig eine eigene KI betreiben möchte, sollte Compliance von Beginn an denken. Dies beinhaltet auszugsweise die Auswahl des richtigen Sprachmodells für den konkreten Verwendungszweck, die konkrete Lizenzprüfung, die Einhaltung lizenzvertraglicher und gesetzlicher Vorschriften und deren Dokumentation im Detail.

Melden Sie sich hier zu unserem GvW Newsletter an - und wir halten Sie über die aktuellen Rechtsentwicklungen informiert!





