As principais editoras, incluindo a Enciclopédia Britânica (proprietária da Merriam-Webster), iniciaram um processo contra a OpenAI, alegando violações sistemáticas e generalizadas de direitos autorais. A principal alegação é que a OpenAI copiou e usou ilegalmente quase 100.000 artigos protegidos por direitos autorais para treinar seus grandes modelos de linguagem (LLMs) sem permissão.

O caso: como a OpenAI supostamente infringiu direitos autorais

A Britannica argumenta que as ações da OpenAI vão além da simples coleta de dados. O processo acusa especificamente o gigante da IA ​​de duas violações principais:

  1. Reprodução Direta: Os modelos da OpenAI supostamente geram resultados que contêm cópias literais do conteúdo da Britannica.
  2. Abuso de geração aumentada de recuperação (RAG): A ferramenta RAG da OpenAI, que aprimora as respostas do ChatGPT com dados da web em tempo real, incorpora os artigos da Britannica sem autorização. Isto significa essencialmente que a OpenAI lucra com o trabalho da Britannica, ao mesmo tempo que prejudica os seus fluxos de receitas.

A reclamação também afirma que a OpenAI viola a lei de marcas registradas ao fabricar atribuições falsas. O ChatGPT é acusado de gerar “alucinações” (informações falsas) e vinculá-las falsamente à Britannica, prejudicando a credibilidade da editora. A Britannica afirma que esta prática não só prejudica os seus resultados, mas também corrói a confiança do público em fontes online fiáveis.

Uma tendência crescente: editores versus IA

A Britannica não está sozinha nesta batalha legal. O New York Times, Ziff Davis (empresa controladora da Mashable, CNET e outros) e mais de uma dúzia de jornais em toda a América do Norte já entraram com ações semelhantes contra a OpenAI. Um processo separado contra a Perplexity, outra empresa de IA, continua sem solução.

A questão central que orienta estes casos é se a formação de um LLM em material protegido por direitos de autor constitui utilização justa. Embora não haja um precedente legal firme, a Anthropic argumentou anteriormente em tribunal que tal uso é “transformador” e legal. No entanto, o juiz nesse caso concluiu que o download ilegal de conteúdo (em vez de licenciá-lo) era uma violação clara, levando a um acordo de US$ 1,5 bilhão.

Por que isso é importante

Estas ações judiciais são significativas porque desafiam o modelo de negócios fundamental de muitas empresas de IA. Os LLMs dependem de enormes conjuntos de dados, muitas vezes incluindo material protegido por direitos autorais, para funcionar. Se os tribunais decidirem consistentemente a favor dos editores, os criadores de IA poderão ter de renegociar estratégias de aquisição de dados ou enfrentar custos legais incapacitantes. O resultado moldará a forma como os sistemas de IA são treinados e usados, forçando potencialmente uma mudança para conteúdo licenciado e controles de dados mais rígidos.

A OpenAI ainda não respondeu às acusações, mas a pressão legal está aumentando. O futuro do treinamento em IA pode depender do desenrolar desses casos.