Penguin innove avec une page dédiée « Ne pas gratter l’IA »

Dans une démarche résolue visant à s’opposer à l’usage non autorisé des créations de ses auteurs par des sociétés technologiques, le leader de l’édition Penguin Random House annonce qu’il va ajuster le texte de toutes …

Penguin innove avec une page dédiée « Ne pas gratter l’IA »

Dans une démarche résolue visant à s’opposer à l’usage non autorisé des créations de ses auteurs par des sociétés technologiques, le leader de l’édition Penguin Random House annonce qu’il va ajuster le texte de toutes les pages liées aux droits d’auteur de ses ouvrages. Cette initiative a pour but d’interdire explicitement l’utilisation de ces œuvres pour entraîner des systèmes d’intelligence artificielle, comme l’indique un article de The Bookseller.

C’est une évolution significative par rapport à d’autres grands acteurs du secteur, comme les maisons d’édition universitaires Taylor & Francis, Wiley et Oxford University Press, qui ont tous donné leur accord pour permettre l’utilisation de leurs catalogues par des entreprises de technologie d’intelligence artificielle.

Matthew Sag, spécialiste en intelligence artificielle et en propriété intellectuelle à la faculté de droit de l’Université Emory, a indiqué que les nouvelles clauses de Penguin Random House semblent s’orienter vers le marché de l’Union européenne, mais pourraient également influencer la manière dont les entreprises d’IA américaines exploitent ce contenu. Selon la législation de l’UE, les détenteurs de droits d’auteur ont la possibilité de s’opposer à l’utilisation de leurs œuvres. Bien que ce droit ne soit pas intégré dans la législation américaine, les principaux acteurs du développement de l’IA évitent généralement de récupérer des contenus protégés derrière des paywalls ou ceux bannis par les fichiers robot.txt des sites. « On pourrait penser qu’il n’y a aucune raison pour qu’ils ne prennent pas en compte ce type d’option de retrait [que Penguin Random House inclut dans ses ouvrages] tant qu’il s’agit d’un signal qu’ils peuvent traiter à grande échelle », a précisé Sag.

Un grand nombre d’écrivains et de sociétés médiatiques ont engagé des actions en justice aux États-Unis contre des géants comme Google, Meta, Microsoft, OpenAI et d’autres créateurs d’intelligence artificielle, les accusant d’enfreindre la loi en utilisant des œuvres protégées par le droit d’auteur pour former d’importants modèles de langage. Ces entreprises de technologie avancent que leurs pratiques s’inscrivent dans le cadre de la doctrine fair use, qui autorise l’utilisation sans autorisation de contenus protégés dans certaines conditions, telles que lorsque l’œuvre dérivée apporte une transformation significative au contenu initial ou est employée à des fins de critique, de reportage ou d’éducation.

A lire aussi  Astuces pour réussir la meilleure photo de profil instagram en 2024

Les cours américaines n’ont pas encore tranché sur la question de savoir si l’inclusion d’un ouvrage dans un modèle de langage étendu peut être considérée comme un usage équitable. Pendant ce temps, les mouvements sur les réseaux sociaux , où des utilisateurs réclament aux entreprises technologiques de ne pas entraîner leurs systèmes d’IA avec leurs créations, n’ont pas rencontré le succès escompté.

Le communiqué de non-formation de Penguin Random House présente une perspective distincte par rapport à ces messages optimistes largement diffusés. D’une part, les utilisateurs des réseaux sociaux doivent se plier aux conditions d’utilisation de ces plateformes, ce qui autorise inévitablement l’utilisation de leurs contenus pour former l’intelligence artificielle. D’autre part, Penguin Random House se positionne en tant qu’éditeur international bien établi, en mesure de soutenir son propos par l’intermédiaire de ses équipes juridiques compétentes.

Selon les informations rapportées par The Bookseller, les récentes clauses de droit d’auteur de l’éditeur se présentent en partie de la manière suivante : « Il est interdit d’utiliser ou de reproduire tout ou partie de ce livre sous quelque forme que ce soit en vue de développer des technologies ou des systèmes d’intelligence artificielle. En vertu de l’article 4, paragraphe 3, de la directive relative au marché unique numérique 2019/790, Penguin Random House se réserve explicitement ce contenu, en dehors des activités de fouille de textes et de données.

https://twitter.com/petergyang/status/1793480607198323196

Si Penguin Random House réussit à séparer ses contenus soumis au droit d’auteur des systèmes de langage de grande envergure, cela pourrait entraîner des conséquences majeures pour le secteur de l’IA générative. Les développeurs se verraient alors contraints de commencer à rémunérer l’accès à un contenu de qualité – une situation difficile pour les modèles économiques basés sur l’exploitation gratuite du travail d’autrui – ou bien de convaincre les utilisateurs de s’intéresser à des modèles entraînés sur des contenus médiocres trouvés sur Internet et des publications déjà périmées.

A lire aussi  7 moyens de sécuriser ces crypto-monnaies en 2024

« La raison majeure pour des sociétés telles que Penguin Random House de s’abstenir de contribuer à l’élaboration de l’IA pourrait être de respecter les souhaits des auteurs qui refusent que leurs créations soient exploitées comme données d’apprentissage pour diverses raisons, mais il est probable que cela vise aussi à donner à la maison d’édition la possibilité de revenir en arrière et [commencer] à imposer des frais de licence pour l’utilisation des données d’entraînement. », a affirmé Sag. Si telle est la réalité qui se profile, les entreprises d’IA continueront à se nourrir des informations disponibles sur “l’Internet ouvert”, tandis que quiconque détient une quantité significative de texte cherchera à se retirer et à facturer l’accès. Cela paraît être un excellent compromis, permettant aux éditeurs et aux plateformes de tirer profit de l’accès sans provoquer des coûts de transaction prohibitifs pour l’élaboration de l’IA dans son ensemble.