Führende Verlage, darunter Encyclopedia Britannica (Eigentümer von Merriam-Webster), haben eine Klage gegen OpenAI eingereicht und behaupten systematische und weit verbreitete Urheberrechtsverletzungen. Die Kernbehauptung besteht darin, dass OpenAI illegal fast 100.000 urheberrechtlich geschützte Artikel gecrackt und verwendet hat, um seine großen Sprachmodelle (LLMs) ohne Erlaubnis zu trainieren.

Der Fall: Wie OpenAI angeblich das Urheberrecht verletzt hat

Britannica argumentiert, dass die Maßnahmen von OpenAI über die einfache Datenerfassung hinausgehen. In der Klage werden dem KI-Riesen insbesondere zwei wesentliche Verstöße vorgeworfen:

  1. Direkte Reproduktion: Die Modelle von OpenAI generieren angeblich Ausgaben, die wörtliche Kopien des Inhalts von Britannica enthalten.
  2. Retrieval-Augmented Generation (RAG)-Missbrauch: Das RAG-Tool von OpenAI, das die Antworten von ChatGPT mit Echtzeit-Webdaten erweitert, integriert die Artikel von Britannica ohne Genehmigung. Dies bedeutet im Wesentlichen, dass OpenAI von der Arbeit von Britannica profitiert und gleichzeitig seine Einnahmequellen untergräbt.

In der Beschwerde heißt es außerdem, dass OpenAI durch die Herstellung falscher Namensnennungen gegen das Markenrecht verstößt. ChatGPT wird vorgeworfen, „Halluzinationen“ (falsche Informationen) zu erzeugen und diese fälschlicherweise mit Britannica in Verbindung zu bringen, was der Glaubwürdigkeit des Herausgebers schadet. Britannica behauptet, dass diese Praxis nicht nur ihrem Geschäftsergebnis schadet, sondern auch das Vertrauen der Öffentlichkeit in zuverlässige Online-Quellen untergräbt.

Ein wachsender Trend: Verlage vs. KI

Britannica ist in diesem Rechtsstreit nicht allein. Die New York Times, Ziff Davis (Muttergesellschaft von Mashable, CNET und anderen) und über ein Dutzend Zeitungen in ganz Nordamerika haben bereits ähnliche Klagen gegen OpenAI eingereicht. Eine separate Klage gegen Perplexity, ein weiteres KI-Unternehmen, bleibt ungelöst.

Die zentrale Frage, die diesen Fällen zugrunde liegt, ist, ob die Ausbildung eines LLM an urheberrechtlich geschütztem Material eine faire Nutzung darstellt. Obwohl es keinen eindeutigen rechtlichen Präzedenzfall gibt, argumentierte Anthropic zuvor vor Gericht, dass eine solche Nutzung „transformativ“ und legal sei. Allerdings kam der Richter in diesem Fall zu dem Schluss, dass das illegale Herunterladen von Inhalten (anstatt sie zu lizenzieren) einen klaren Verstoß darstellte, was zu einer Einigung in Höhe von 1,5 Milliarden US-Dollar führte.

Warum das wichtig ist

Diese Klagen sind bedeutsam, weil sie das grundlegende Geschäftsmodell vieler KI-Unternehmen in Frage stellen. Um zu funktionieren, sind LLMs auf riesige Datensätze angewiesen, die häufig urheberrechtlich geschütztes Material enthalten. Wenn Gerichte durchweg zugunsten von Herausgebern entscheiden, müssen KI-Entwickler möglicherweise ihre Datenerfassungsstrategien neu aushandeln oder mit hohen Rechtskosten rechnen. Das Ergebnis wird die Art und Weise beeinflussen, wie KI-Systeme trainiert und verwendet werden und möglicherweise eine Verlagerung hin zu lizenzierten Inhalten und strengeren Datenkontrollen erzwingen.

OpenAI hat noch nicht auf die Vorwürfe reagiert, aber der rechtliche Druck nimmt zu. Die Zukunft des KI-Trainings könnte davon abhängen, wie sich diese Fälle entwickeln.