{"id":9513,"date":"2024-01-11T15:06:27","date_gmt":"2024-01-11T13:06:27","guid":{"rendered":"https:\/\/toukiela.com\/revelations-choquantes-de-meta-utilisation-dun-ensemble-de-donnees-de-livres-pirates-pour-entrainer-lia\/"},"modified":"2024-01-11T15:06:28","modified_gmt":"2024-01-11T13:06:28","slug":"revelations-choquantes-de-meta-utilisation-dun-ensemble-de-donnees-de-livres-pirates-pour-entrainer-lia","status":"publish","type":"post","link":"https:\/\/toukiela.com\/fr_be\/revelations-choquantes-de-meta-utilisation-dun-ensemble-de-donnees-de-livres-pirates-pour-entrainer-lia\/","title":{"rendered":"R\u00e9v\u00e9lations choquantes de Meta : utilisation d&rsquo;un ensemble de donn\u00e9es de livres &lsquo;pirat\u00e9s&rsquo; pour entra\u00eener l&rsquo;IA !"},"content":{"rendered":"<p><em><\/em><\/p>\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_82_2 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">Sommaire<\/p>\n<label for=\"ez-toc-cssicon-toggle-item-69f1d6c348cb4\" class=\"ez-toc-cssicon-toggle-label\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Toggle<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewbox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewbox=\"0 0 24 24\" version=\"1.2\" baseprofile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/label><input type=\"checkbox\"  id=\"ez-toc-cssicon-toggle-item-69f1d6c348cb4\"  aria-label=\"Toggle\" \/><nav><ul class='ez-toc-list ez-toc-list-level-1' ><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/toukiela.com\/fr_be\/revelations-choquantes-de-meta-utilisation-dun-ensemble-de-donnees-de-livres-pirates-pour-entrainer-lia\/#Des_titulaires_de_droits_dauteur_intentent_des_poursuites_contre_des_entreprises_de_developpement_dIA\" >Des titulaires de droits d\u2019auteur intentent des poursuites contre des entreprises de d\u00e9veloppement d\u2019IA<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/toukiela.com\/fr_be\/revelations-choquantes-de-meta-utilisation-dun-ensemble-de-donnees-de-livres-pirates-pour-entrainer-lia\/#Lessor_de_lIA_entraine_des_problemes_de_droits_dauteur\" >L\u2019essor de l\u2019IA entra\u00eene des probl\u00e8mes de droits d\u2019auteur<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/toukiela.com\/fr_be\/revelations-choquantes-de-meta-utilisation-dun-ensemble-de-donnees-de-livres-pirates-pour-entrainer-lia\/#Meta_admet_lutilisation_de_Books3\" >Meta admet l\u2019utilisation de Books3<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-4\" href=\"https:\/\/toukiela.com\/fr_be\/revelations-choquantes-de-meta-utilisation-dun-ensemble-de-donnees-de-livres-pirates-pour-entrainer-lia\/#Meta_nie_la_violation_du_droit_dauteur\" >Meta nie la violation du droit d\u2019auteur<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-5\" href=\"https:\/\/toukiela.com\/fr_be\/revelations-choquantes-de-meta-utilisation-dun-ensemble-de-donnees-de-livres-pirates-pour-entrainer-lia\/#Usage_equitable\" >Usage \u00e9quitable<\/a><\/li><\/ul><\/nav><\/div>\n<h2><span class=\"ez-toc-section\" id=\"Des_titulaires_de_droits_dauteur_intentent_des_poursuites_contre_des_entreprises_de_developpement_dIA\"><\/span>Des titulaires de droits d\u2019auteur intentent des poursuites contre des entreprises de d\u00e9veloppement d\u2019IA<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p><\/p>\n<p>Ces derniers mois, des titulaires de droits de toutes sortes ont intent\u00e9 des poursuites contre des entreprises qui d\u00e9veloppent des mod\u00e8les d\u2019IA.<\/p>\n<p><\/p>\n<p>La liste comprend des maisons de disques, des auteurs individuels, des artistes visuels et plus r\u00e9cemment le New York Times. Tous ces titulaires de droits s\u2019opposent \u00e0 l\u2019utilisation pr\u00e9sum\u00e9e de leur travail sans une juste compensation.<\/p>\n<p><\/p>\n<p>Plusieurs des poursuites intent\u00e9es par des auteurs de livres incluent \u00e9galement un volet de piratage. Les affaires all\u00e8guent que des entreprises technologiques, dont Meta et OpenAI, ont utilis\u00e9 le controvers\u00e9 ensemble de donn\u00e9es Books3 pour former leurs mod\u00e8les.<\/p>\n<p><\/p>\n<p>L\u2019ensemble de donn\u00e9es Books3 a un angle de piratage \u00e9vident. Il a \u00e9t\u00e9 cr\u00e9\u00e9 par le chercheur en IA Shawn Presser en 2020, qui a r\u00e9cup\u00e9r\u00e9 la biblioth\u00e8que du site \u2018pirate\u2019 Bibliotik. Cet archive de livres \u00e9tait h\u00e9berg\u00e9e publiquement par le collectif d\u2019archivage num\u00e9rique \u2018The Eye\u2019 \u00e0 l\u2019\u00e9poque, aux c\u00f4t\u00e9s de diverses autres sources de donn\u00e9es.<\/p>\n<p>\n<\/p><center><strong><sup>Bibliotik et d\u2019autres sources pr\u00e9c\u00e9demment h\u00e9berg\u00e9es sur The Eye<\/sup><\/strong><\/center><br><center><\/center>\n<p>L\u2019id\u00e9e g\u00e9n\u00e9rale \u00e9tait que la collection en texte brut de plus de 195 000 livres, qui fait pr\u00e8s de 37 Go, pourrait aider les passionn\u00e9s d\u2019IA \u00e0 construire de meilleurs mod\u00e8les, ce qui stimulerait l\u2019innovation.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"Lessor_de_lIA_entraine_des_problemes_de_droits_dauteur\"><\/span>L\u2019essor de l\u2019IA entra\u00eene des probl\u00e8mes de droits d\u2019auteur<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p><\/p>\n<p>Presser n\u2019avait pas tort, mais l\u2019ensemble de donn\u00e9es n\u2019a pas seulement aid\u00e9 les start-ups d\u2019IA de garage. Plusieurs des plus grandes entreprises technologiques du monde l\u2019ont \u00e9galement d\u00e9couvert et l\u2019ont utilis\u00e9 pour am\u00e9liorer leurs propres mod\u00e8les linguistiques.<\/p>\n<p><\/p>\n<p>Pendant des ann\u00e9es, Books3 est rest\u00e9 librement et largement disponible, aidant les chercheurs et les passionn\u00e9s d\u2019IA du monde entier. Cependant, lorsque l\u2019essor de l\u2019IA a atteint le grand public l\u2019ann\u00e9e derni\u00e8re, les auteurs de livres et les \u00e9diteurs ont pris note, puis ont pris des mesures de repr\u00e9sailles.<\/p>\n<p><\/p>\n<p>Par exemple, le groupe d\u2019anti-piraterie danois Rights Alliance a demand\u00e9 \u00e0 The Eye de supprimer leur copie de Books3, ce qu\u2019il a fait. L\u2019ensemble de donn\u00e9es a \u00e9galement disparu du site web de l\u2019entreprise d\u2019IA Huggingface, citant une <a rel='\\\"nofollow\\\"' target='\\\"_blank\\\"' href=\"\/fr_be\/%5C%22https:\/\/huggingface.co\/datasets\/the_pile_books3%5C%22\/\">violation pr\u00e9sum\u00e9e du droit d\u2019auteur<\/a>, tandis que d\u2019autres envisageaient leurs options.<\/p>\n<p><\/p>\n<p>Comme l\u2019a pr\u00e9c\u00e9demment <a rel='\\\"nofollow\\\"' target='\\\"_blank\\\"' href=\"\/fr_be\/%5C%22https:\/\/www.wired.com\/story\/battle-over-books3\/%5C%22\/\">rapport\u00e9<\/a> Wired, Bloomberg a inform\u00e9 Rights Alliance qu\u2019il n\u2019a pas l\u2019intention de former de futures versions de son mod\u00e8le BloombergGPT en utilisant Books3, et d\u2019autres entreprises ont probablement pris des d\u00e9cisions similaires \u00e0 huis clos.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"Meta_admet_lutilisation_de_Books3\"><\/span>Meta admet l\u2019utilisation de Books3<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p><\/p>\n<p>Ces d\u00e9veloppements sont remarquables, mais toutes les plaintes ne peuvent pas \u00eatre r\u00e9solues par des promesses. Plusieurs poursuites contre OpenAI et Meta sont toujours en cours, accusant les entreprises d\u2019avoir utilis\u00e9 l\u2019ensemble de donn\u00e9es Books3 pour former leurs mod\u00e8les.<\/p>\n<p><\/p>\n<p>Alors qu\u2019OpenAI et Meta sont tr\u00e8s prudents lorsqu\u2019il s\u2019agit de discuter du sujet en public, Meta a fourni plus de d\u00e9tails devant un tribunal f\u00e9d\u00e9ral de Californie cette semaine.<\/p>\n<p><\/p>\n<p>En r\u00e9ponse \u00e0 une poursuite intent\u00e9e par l\u2019\u00e9crivaine\/com\u00e9dienne Sarah Silverman, l\u2019auteur Richard Kadrey et d\u2019autres titulaires de droits, le g\u00e9ant de la technologie admet que \u00ab\u00a0des parties de Books3\u00a0\u00bb ont \u00e9t\u00e9 utilis\u00e9es pour former le mod\u00e8le d\u2019IA Llama avant sa sortie publique.<\/p>\n<p><\/p>\n<p>\u00ab\u00a0Meta admet avoir utilis\u00e9 des parties de l\u2019ensemble de donn\u00e9es Books3, parmi de nombreux autres mat\u00e9riaux, pour former Llama 1 et Llama 2\u00a0\u00bb, \u00e9crit Meta dans sa r\u00e9ponse.<\/p>\n<p>\n<\/p><center><\/center>\n<p>Cette admission n\u2019est pas une surprise majeure car plusieurs sources, y compris des articles de recherche, sont parvenues \u00e0 la m\u00eame conclusion. Bien que l\u2019utilisation de Books3 ne soit pas contest\u00e9e par Meta, la question reste de savoir si l\u2019entreprise a agi de mani\u00e8re r\u00e9pr\u00e9hensible en le faisant.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"Meta_nie_la_violation_du_droit_dauteur\"><\/span>Meta nie la violation du droit d\u2019auteur<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p><\/p>\n<p>La r\u00e9ponse de Meta admet l\u2019utilisation de Books3 mais nie diverses autres all\u00e9gations et revendications. Par exemple, les auteurs ont all\u00e9gu\u00e9 que Meta avait form\u00e9 son IA sur des \u0153uvres prot\u00e9g\u00e9es par le droit d\u2019auteur sans autorisation. La r\u00e9ponse ne le nie pas directement, mais souligne que le consentement ou une compensation ne sont pas n\u00e9cessairement requis.<\/p>\n<p><\/p>\n<p>\u00ab\u00a0Dans la mesure o\u00f9 une r\u00e9ponse est jug\u00e9e n\u00e9cessaire, Meta nie que son utilisation d\u2019\u0153uvres prot\u00e9g\u00e9es par le droit d\u2019auteur pour former Llama n\u00e9cessitait un consentement, un cr\u00e9dit ou une compensation\u00a0\u00bb, \u00e9crit Meta.<\/p>\n<p><\/p>\n<p>Les auteurs ont \u00e9galement d\u00e9clar\u00e9 que, dans la mesure o\u00f9 leurs livres apparaissent dans la base de donn\u00e9es Books3, ils sont d\u00e9sign\u00e9s comme des \u00ab\u00a0\u0153uvres viol\u00e9es\u00a0\u00bb. Cela a incit\u00e9 Meta \u00e0 r\u00e9pondre par un autre d\u00e9ni. \u00ab\u00a0Meta nie avoir viol\u00e9 les pr\u00e9sum\u00e9s droits d\u2019auteur des demandeurs\u00a0\u00bb, \u00e9crit la soci\u00e9t\u00e9.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"Usage_equitable\"><\/span>Usage \u00e9quitable<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p><\/p>\n<p>La r\u00e9ponse de Meta ne fournit pas beaucoup plus de d\u00e9tails et la d\u00e9fense compl\u00e8te sera r\u00e9v\u00e9l\u00e9e au fur et \u00e0 mesure de l\u2019\u00e9volution de l\u2019affaire. Il est clair, cependant, que l\u2019entreprise pr\u00e9voit de s\u2019appuyer en partie sur une d\u00e9fense d\u2019usage \u00e9quitable.<\/p>\n<p><\/p>\n<p>\u00ab\u00a0Dans la mesure o\u00f9 Meta a fait des copies non autoris\u00e9es des \u0153uvres prot\u00e9g\u00e9es par le droit d\u2019auteur des demandeurs, ces copies constituent un usage \u00e9quitable conform\u00e9ment \u00e0 l\u2019article 107 du titre 17 du Code des \u00c9tats-Unis\u00a0\u00bb, note Meta.<\/p>\n<p><\/p>\n<p>L\u2019angle de l\u2019usage \u00e9quitable devrait \u00eatre un \u00e9l\u00e9ment cl\u00e9 de ces poursuites judiciaires et d\u2019autres li\u00e9es \u00e0 l\u2019IA. Cela s\u2019applique non seulement aux sources \u00ab\u00a0pirates\u00a0\u00bb, mais aussi \u00e0 l\u2019utilisation de contenus publi\u00e9s par le biais de canaux officiels, mais utilis\u00e9s sans autorisation explicite.<\/p>\n<p><\/p>\n<p>Ces batailles juridiques en sont encore \u00e0 leurs d\u00e9buts, mais pourraient \u00e9ventuellement aboutir devant la Cour supr\u00eame si n\u00e9cessaire. Les entreprises d\u2019IA ont soulign\u00e9 que le progr\u00e8s serait entrav\u00e9 si les r\u00e8gles et les r\u00e9glementations sont trop strictes.<\/p>\n<p><\/p>\n<p>Plus t\u00f4t cette semaine, OpenAI a mentionn\u00e9 que l\u2019usage \u00e9quitable est \u00e0 la fois n\u00e9cessaire et essentiel pour <a rel='\\\"nofollow\\\"' target='\\\"_blank\\\"' href=\"\/fr_be\/%5C%22https:\/\/openai.com\/blog\/openai-and-journalism%5C%22\/\">construire des mod\u00e8les d\u2019IA comp\u00e9titifs<\/a>, notant que les organisations de presse peuvent choisir de ne pas participer si elles le souhaitent. Inutile de dire que cette option n\u2019existait pas auparavant, certainement pas pour la base de donn\u00e9es Books3.<\/p>\n<p><\/p>\n<p>Nous pr\u00e9sumons que lorsque Presser a cr\u00e9\u00e9 Books3, il n\u2019imaginait jamais que l\u2019ensemble de donn\u00e9es serait au centre de poursuites historiques qui pourraient d\u00e9finir l\u2019avenir de l\u2019IA. Cependant, les enjeux ont chang\u00e9, et l\u2019effort d\u2019archivage bien intentionn\u00e9 fait d\u00e9sormais partie d\u2019un important conflit en mati\u00e8re de droits d\u2019auteur.<\/p>\n<p><\/p>\n<p><em>\u2014<\/em><\/p>\n<p><\/p>\n<p>Une copie de la r\u00e9ponse de Meta \u00e0 la premi\u00e8re plainte amend\u00e9e consolid\u00e9e de l\u2019auteur est disponible <a rel='\\\"nofollow\\\"' target='\\\"_blank\\\"' href=\"\/fr_be\/%5C%22https:\/\/storage.courtlistener.com\/recap\/gov.uscourts.cand.415175\/gov.uscourts.cand.415175.72.0.pdf%5C%22\/\">ici (pdf)<\/a><\/p>","protected":false},"excerpt":{"rendered":"","protected":false},"author":1,"featured_media":9515,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_seopress_robots_primary_cat":"","_seopress_titles_title":"","_seopress_titles_desc":"","_seopress_robots_index":"","footnotes":""},"categories":[586],"tags":[],"class_list":["post-9513","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-actu-tech","generate-columns","tablet-grid-50","mobile-grid-100","grid-parent","grid-50"],"_links":{"self":[{"href":"https:\/\/toukiela.com\/fr_be\/wp-json\/wp\/v2\/posts\/9513","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/toukiela.com\/fr_be\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/toukiela.com\/fr_be\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/toukiela.com\/fr_be\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/toukiela.com\/fr_be\/wp-json\/wp\/v2\/comments?post=9513"}],"version-history":[{"count":1,"href":"https:\/\/toukiela.com\/fr_be\/wp-json\/wp\/v2\/posts\/9513\/revisions"}],"predecessor-version":[{"id":9514,"href":"https:\/\/toukiela.com\/fr_be\/wp-json\/wp\/v2\/posts\/9513\/revisions\/9514"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/toukiela.com\/fr_be\/wp-json\/wp\/v2\/media\/9515"}],"wp:attachment":[{"href":"https:\/\/toukiela.com\/fr_be\/wp-json\/wp\/v2\/media?parent=9513"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/toukiela.com\/fr_be\/wp-json\/wp\/v2\/categories?post=9513"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/toukiela.com\/fr_be\/wp-json\/wp\/v2\/tags?post=9513"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}