Des éditeurs de premier plan, dont Encyclopedia Britannica (propriétaire de Merriam-Webster), ont lancé une action en justice contre OpenAI, alléguant des violations systématiques et généralisées du droit d’auteur. L’affirmation principale est qu’OpenAI a récupéré et utilisé illégalement près de 100 000 articles protégés par le droit d’auteur pour entraîner ses grands modèles de langage (LLM) sans autorisation.
L’affaire : comment OpenAI aurait violé le droit d’auteur
Britannica affirme que les actions d’OpenAI vont au-delà de la simple collecte de données. Le procès accuse spécifiquement le géant de l’IA de deux violations clés :
- Reproduction directe : Les modèles d’OpenAI généreraient des sorties contenant des copies textuelles du contenu de Britannica.
- Abus de génération de récupération augmentée (RAG) : L’outil RAG d’OpenAI, qui améliore les réponses de ChatGPT avec des données Web en temps réel, intègre les articles de Britannica sans autorisation. Cela signifie essentiellement qu’OpenAI profite du travail de Britannica tout en sapant ses sources de revenus.
La plainte indique également qu’OpenAI viole le droit des marques en fabriquant de fausses attributions. ChatGPT est accusé de générer des « hallucinations » (fausses informations) et de les relier faussement à Britannica, nuisant ainsi à la crédibilité de l’éditeur. Britannica affirme que cette pratique non seulement nuit à ses résultats financiers, mais érode également la confiance du public dans les sources en ligne fiables.
Une tendance croissante : les éditeurs contre l’IA
Britannica n’est pas seule dans cette bataille juridique. Le New York Times, Ziff Davis (société mère de Mashable, CNET et autres) et plus d’une douzaine de journaux à travers l’Amérique du Nord ont déjà intenté des poursuites similaires contre OpenAI. Un procès distinct contre Perplexity, une autre société d’IA, n’est toujours pas résolu.
La question centrale de ces cas est de savoir si la formation d’un LLM sur du matériel protégé par le droit d’auteur constitue une utilisation équitable. Bien qu’il n’existe pas de précédent juridique solide, Anthropic a déjà soutenu devant le tribunal qu’une telle utilisation était « transformatrice » et légale. Cependant, le juge chargé de cette affaire a estimé que le téléchargement illégal de contenu (plutôt que l’octroi d’une licence) constituait une violation flagrante, ce qui a conduit à un règlement de 1,5 milliard de dollars.
Pourquoi c’est important
Ces poursuites sont importantes car elles remettent en question le modèle économique fondamental de nombreuses entreprises d’IA. Pour fonctionner, les LLM s’appuient sur des ensembles de données massifs, comprenant souvent du matériel protégé par le droit d’auteur. Si les tribunaux se prononcent systématiquement en faveur des éditeurs, les développeurs d’IA pourraient devoir renégocier leurs stratégies d’acquisition de données ou faire face à des frais juridiques écrasants. Le résultat façonnera la manière dont les systèmes d’IA sont formés et utilisés, forçant potentiellement une transition vers un contenu sous licence et des contrôles de données plus stricts.
OpenAI n’a pas encore répondu aux allégations, mais la pression juridique augmente. L’avenir de la formation en IA pourrait dépendre de la manière dont ces cas se dérouleront.

























