Las principales editoriales, incluida la Enciclopedia Británica (propietaria de Merriam-Webster), han iniciado una demanda contra OpenAI, alegando violaciones sistemáticas y generalizadas de los derechos de autor. La afirmación principal es que OpenAI extrajo y utilizó ilegalmente casi 100.000 artículos con derechos de autor para entrenar sus grandes modelos de lenguaje (LLM) sin permiso.
El caso: cómo OpenAI supuestamente infringió los derechos de autor
Britannica sostiene que las acciones de OpenAI van más allá de la simple recopilación de datos. La demanda acusa específicamente al gigante de la IA de dos violaciones clave:
- Reproducción directa: Los modelos de OpenAI supuestamente generan resultados que contienen copias textuales del contenido de Britannica.
- Abuso de generación aumentada de recuperación (RAG): La herramienta RAG de OpenAI, que mejora las respuestas de ChatGPT con datos web en tiempo real, incorpora artículos de Britannica sin autorización. Básicamente, esto significa que OpenAI se beneficia del trabajo de Britannica y al mismo tiempo socava sus flujos de ingresos.
La denuncia también afirma que OpenAI viola la ley de marcas al fabricar atribuciones falsas. ChatGPT está acusado de generar “alucinaciones” (información falsa) y vincularlas falsamente con Britannica, dañando la credibilidad del editor. Britannica sostiene que esta práctica no sólo perjudica sus resultados sino que también erosiona la confianza del público en fuentes confiables en línea.
Una tendencia creciente: editores versus IA
Britannica no está sola en esta batalla legal. El New York Times, Ziff Davis (empresa matriz de Mashable, CNET y otros) y más de una docena de periódicos de toda Norteamérica ya han presentado demandas similares contra OpenAI. Sigue sin resolverse una demanda separada contra Perplexity, otra empresa de inteligencia artificial.
La pregunta central que impulsa estos casos es si capacitar a un LLM en material protegido por derechos de autor constituye un uso legítimo. Si bien no existe un precedente legal firme, Anthropic argumentó anteriormente ante el tribunal que dicho uso es “transformador” y legal. Sin embargo, el juez de ese caso determinó que descargar contenido ilegalmente (en lugar de otorgar una licencia) era una violación clara, lo que llevó a un acuerdo de 1.500 millones de dólares.
Por qué esto es importante
Estas demandas son importantes porque desafían el modelo de negocio fundamental de muchas empresas de IA. Los LLM dependen de conjuntos de datos masivos, que a menudo incluyen material protegido por derechos de autor, para funcionar. Si los tribunales fallan consistentemente a favor de los editores, los desarrolladores de IA podrían necesitar renegociar las estrategias de adquisición de datos o enfrentar costos legales abrumadores. El resultado determinará la forma en que se entrenan y utilizan los sistemas de IA, lo que podría forzar un cambio hacia contenido con licencia y controles de datos más estrictos.
OpenAI aún tiene que responder a las acusaciones, pero la presión legal está aumentando. El futuro del entrenamiento en IA puede depender de cómo se desarrollen estos casos.
