I principali editori, tra cui l’Enciclopedia Britannica (proprietaria di Merriam-Webster), hanno avviato una causa contro OpenAI, adducendo violazioni sistematiche e diffuse del copyright. L’affermazione principale è che OpenAI ha recuperato e utilizzato illegalmente quasi 100.000 articoli protetti da copyright per addestrare i suoi modelli linguistici di grandi dimensioni (LLM) senza autorizzazione.
Il caso: come OpenAI avrebbe violato il copyright
La Britannica sostiene che le azioni di OpenAI vanno oltre la semplice raccolta di dati. La causa accusa specificamente il colosso dell’intelligenza artificiale di due violazioni chiave:
- Riproduzione diretta: i modelli di OpenAI presumibilmente generano output che contengono copie letterali del contenuto della Britannica.
- Abuso di Retrieval-Augmented Generation (RAG): lo strumento RAG di OpenAI, che migliora le risposte di ChatGPT con dati web in tempo reale, incorpora gli articoli di Britannica senza autorizzazione. Ciò significa essenzialmente che OpenAI trae profitto dal lavoro della Britannica, minando al contempo i suoi flussi di entrate.
La denuncia afferma inoltre che OpenAI viola la legge sui marchi fabbricando false attribuzioni. ChatGPT è accusato di generare “allucinazioni” (false informazioni) e di collegarle falsamente alla Britannica, danneggiando la credibilità dell’editore. La Britannica sostiene che questa pratica non solo danneggia i suoi profitti, ma mina anche la fiducia del pubblico nelle fonti online affidabili.
Una tendenza in crescita: editori contro intelligenza artificiale
La Britannica non è sola in questa battaglia legale. Il New York Times, Ziff Davis (società madre di Mashable, CNET e altri) e oltre una dozzina di giornali in tutto il Nord America hanno già intentato cause simili contro OpenAI. Una causa separata contro Perplexity, un’altra società di intelligenza artificiale, rimane irrisolta.
La questione centrale che guida questi casi è se la formazione di un LLM su materiale protetto da copyright costituisca un uso corretto. Anche se non esiste un precedente legale concreto, Anthropic ha già sostenuto in tribunale che tale utilizzo è “trasformativo” e legale. Tuttavia, il giudice in quel caso ha ritenuto che scaricare illegalmente i contenuti (piuttosto che concederli in licenza) costituisse una chiara violazione, portando a un risarcimento di 1,5 miliardi di dollari.
Perché è importante
Queste cause legali sono significative perché mettono in discussione il modello di business fondamentale di molte aziende di intelligenza artificiale. Per funzionare, gli LLM si affidano a enormi set di dati, che spesso includono materiale protetto da copyright. Se i tribunali si pronunciassero costantemente a favore degli editori, gli sviluppatori di intelligenza artificiale potrebbero dover rinegoziare le strategie di acquisizione dei dati o affrontare costi legali paralizzanti. Il risultato determinerà il modo in cui i sistemi di intelligenza artificiale verranno addestrati e utilizzati, costringendo potenzialmente a uno spostamento verso contenuti concessi in licenza e controlli dei dati più severi.
OpenAI deve ancora rispondere alle accuse, ma la pressione legale sta aumentando. Il futuro della formazione sull’intelligenza artificiale potrebbe dipendere da come si svilupperanno questi casi.

























