{"id":6498,"date":"2023-10-04T00:06:27","date_gmt":"2023-10-03T22:06:27","guid":{"rendered":"https:\/\/toukiela.com\/anna-devoile-son-incroyable-exploit-elle-a-pirate-worldcat-pour-preserver-tous-les-livres-du-monde\/"},"modified":"2023-10-04T00:06:28","modified_gmt":"2023-10-03T22:06:28","slug":"anna-devoile-son-incroyable-exploit-elle-a-pirate-worldcat-pour-preserver-tous-les-livres-du-monde","status":"publish","type":"post","link":"https:\/\/toukiela.com\/de\/anna-devoile-son-incroyable-exploit-elle-a-pirate-worldcat-pour-preserver-tous-les-livres-du-monde\/","title":{"rendered":"Anna d\u00e9voile son incroyable exploit : elle a pirat\u00e9 WorldCat pour pr\u00e9server &lsquo;tous&rsquo; les livres du monde !"},"content":{"rendered":"<p><em><\/em><\/p>\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_82_2 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">Inhaltsverzeichnis<\/p>\n<label for=\"ez-toc-cssicon-toggle-item-69f1c43147194\" class=\"ez-toc-cssicon-toggle-label\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Toggle<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewbox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewbox=\"0 0 24 24\" version=\"1.2\" baseprofile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/label><input type=\"checkbox\"  id=\"ez-toc-cssicon-toggle-item-69f1c43147194\"  aria-label=\"Toggle\" \/><nav><ul class='ez-toc-list ez-toc-list-level-1' ><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/toukiela.com\/de\/anna-devoile-son-incroyable-exploit-elle-a-pirate-worldcat-pour-preserver-tous-les-livres-du-monde\/#La_montee_en_puissance_des_bibliotheques_clandestines\" >La mont\u00e9e en puissance des biblioth\u00e8ques clandestines<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/toukiela.com\/de\/anna-devoile-son-incroyable-exploit-elle-a-pirate-worldcat-pour-preserver-tous-les-livres-du-monde\/#Lexpansion_de_lArchive_dAnna\" >L\u2019expansion de l\u2019Archive d\u2019Anna<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/toukiela.com\/de\/anna-devoile-son-incroyable-exploit-elle-a-pirate-worldcat-pour-preserver-tous-les-livres-du-monde\/#Le_scraping_des_milliards_de_donnees_de_WorldCat\" >Le scraping des milliards de donn\u00e9es de WorldCat<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-4\" href=\"https:\/\/toukiela.com\/de\/anna-devoile-son-incroyable-exploit-elle-a-pirate-worldcat-pour-preserver-tous-les-livres-du-monde\/#Un_objectif_superieur\" >Un objectif sup\u00e9rieur<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-5\" href=\"https:\/\/toukiela.com\/de\/anna-devoile-son-incroyable-exploit-elle-a-pirate-worldcat-pour-preserver-tous-les-livres-du-monde\/#Donner_un_sens_aux_donnees\" >Donner un sens aux donn\u00e9es<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-6\" href=\"https:\/\/toukiela.com\/de\/anna-devoile-son-incroyable-exploit-elle-a-pirate-worldcat-pour-preserver-tous-les-livres-du-monde\/#IA_et_risques_juridiques\" >IA et risques juridiques<\/a><\/li><\/ul><\/nav><\/div>\n<h2><span class=\"ez-toc-section\" id=\"La_montee_en_puissance_des_bibliotheques_clandestines\"><\/span>La mont\u00e9e en puissance des biblioth\u00e8ques clandestines<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Il y a quelques ann\u00e9es, le piratage de livres \u00e9tait consid\u00e9r\u00e9 comme une activit\u00e9 marginale qui ne faisait que rarement la une des journaux, mais les temps ont chang\u00e9.<\/p>\n<p>L\u2019ann\u00e9e derni\u00e8re, le d\u00e9partement de la justice am\u00e9ricain a cibl\u00e9 le site de biblioth\u00e8que clandestine populaire Z-Library, l\u2019accusant de violations massives des droits d\u2019auteur. Deux des op\u00e9rateurs pr\u00e9sum\u00e9s du site ont \u00e9t\u00e9 arr\u00eat\u00e9s et leur poursuite est toujours en cours.<\/p>\n<p>Ces derniers mois, des biblioth\u00e8ques clandestines ont \u00e9galement \u00e9t\u00e9 impliqu\u00e9es dans d\u2019autres poursuites judiciaires. Par exemple, des \u00e9diteurs ont poursuivi Libgen pour des niveaux de violations \u00ab\u00a0stup\u00e9fiants\u00a0\u00bb. Dans le m\u00eame temps, plusieurs poursuites ont accus\u00e9 OpenAI d\u2019utiliser Libgen et d\u2019autres biblioth\u00e8ques non autoris\u00e9es pour former leurs grands mod\u00e8les de langage.<\/p>\n<p>Ces efforts juridiques ont mis les op\u00e9rateurs des biblioth\u00e8ques clandestines sous une pression s\u00e9rieuse, mais elles restent en ligne, du moins pour le moment. En fait, la r\u00e9pression de Z-Library a propuls\u00e9 un nouvel acteur sur le devant de la sc\u00e8ne l\u2019ann\u00e9e derni\u00e8re : l\u2019Archive d\u2019Anna.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"Lexpansion_de_lArchive_dAnna\"><\/span>L\u2019expansion de l\u2019Archive d\u2019Anna<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>L\u2019Archive d\u2019Anna est un moteur de recherche m\u00e9tamoteur pour les sources de piratage de livres et les biblioth\u00e8ques clandestines. Le site a \u00e9t\u00e9 lanc\u00e9 quelques jours apr\u00e8s que Z-Library ait \u00e9t\u00e9 cibl\u00e9 en novembre dernier, afin de garantir et de faciliter la disponibilit\u00e9 des livres et des articles au grand public.<\/p>\n<p>Avec plus de 20 millions de livres index\u00e9s et pr\u00e8s de 100 millions de documents \u2013 dont beaucoup sont partag\u00e9s sans autorisation \u2013 l\u2019Archive d\u2019Anna a d\u00e9j\u00e0 parcouru un long chemin. Cela n\u2019a pas \u00e9chapp\u00e9 \u00e0 l\u2019attention du grand public, car le m\u00e9tamoteur a plus de 12 millions de visites mensuelles selon les estimations r\u00e9centes du trafic.<\/p>\n<p>Pour l\u2019Archive d\u2019Anna, tout cela n\u2019est que le d\u00e9but. Les personnes derri\u00e8re le site cherchent \u00e0 jouer un r\u00f4le essentiel dans la pr\u00e9servation de tous les livres disponibles dans le monde, m\u00eame si cela signifie aller \u00e0 l\u2019encontre de la loi sur le droit d\u2019auteur.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"Le_scraping_des_milliards_de_donnees_de_WorldCat\"><\/span>Le scraping des milliards de donn\u00e9es de WorldCat<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Cette semaine, le moteur de recherche a annonc\u00e9 un nouveau jalon qui devrait l\u2019aider \u00e0 atteindre cet objectif ultime. Au cours des derniers mois, l\u2019Archive d\u2019Anna a secr\u00e8tement extrait les donn\u00e9es de WorldCat, la plus grande base de donn\u00e9es de m\u00e9tadonn\u00e9es de livres du monde.<\/p>\n<p>WorldCat est g\u00e9r\u00e9 par l\u2019organisation \u00e0 but non lucratif OCLC et travaille avec des dizaines de milliers de biblioth\u00e8ques dans le monde. Sa base de donn\u00e9es est propri\u00e9taire et n\u2019est pas librement disponible, mais l\u2019Archive d\u2019Anna a r\u00e9ussi \u00e0 contourner les restrictions pour en faire sa propre copie gratuitement.<\/p>\n<p>\u00ab\u00a0M\u00eame si OCLC est \u00e0 but non lucratif, leur mod\u00e8le \u00e9conomique n\u00e9cessite la protection de leur base de donn\u00e9es. Eh bien, nous sommes d\u00e9sol\u00e9s de le dire, amis d\u2019OCLC, nous donnons tout gratuitement\u00a0\u00bb, note l\u2019Archive d\u2019Anna.<\/p>\n<p>Le m\u00e9tamoteur affirme avoir extrait trois t\u00e9raoctets de m\u00e9tadonn\u00e9es, ce qui repr\u00e9sente 1,3 milliard d\u2019identifiants uniques qui, apr\u00e8s avoir \u00e9limin\u00e9 les doublons et autres bruits, correspondent \u00e0 700 millions d\u2019enregistrements uniques.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"Un_objectif_superieur\"><\/span>Un objectif sup\u00e9rieur<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>L\u2019utilisateur moyen n\u2019est probablement pas particuli\u00e8rement int\u00e9ress\u00e9 par le t\u00e9l\u00e9chargement de m\u00e9tadonn\u00e9es ; il veut des livres. Cependant, l\u2019Archive d\u2019Anna estime que ces enregistrements aideront \u00e0 atteindre son objectif ultime.<\/p>\n<p>\u00ab\u00a0Nous pensons que cette publication marque une \u00e9tape importante dans la cartographie de tous les livres du monde. Nous pouvons maintenant travailler sur une liste de choses \u00e0 faire de tous les livres qui doivent encore \u00eatre pr\u00e9serv\u00e9s.<\/p>\n<p>C\u2019est une t\u00e2che \u00e9norme qui n\u00e9cessite de nombreuses personnes et institutions qui y travaillent, tant les biblioth\u00e8ques l\u00e9gales que les biblioth\u00e8ques clandestines, et nous esp\u00e9rons \u00eatre un pilier de cet effort\u00a0\u00bb, d\u00e9clare Anna \u00e0 Toukiela.<\/p>\n<p>La collecte des donn\u00e9es de WorldCat n\u2019est que la premi\u00e8re \u00e9tape. La prochaine consiste \u00e0 mettre ces informations \u00e0 profit et \u00e0 d\u00e9terminer \u00e0 quel point les offres actuelles des biblioth\u00e8ques sont compl\u00e8tes.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"Donner_un_sens_aux_donnees\"><\/span>Donner un sens aux donn\u00e9es<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Les donn\u00e9es de WorldCat ne se limitent pas seulement aux livres, elles incluent \u00e9galement la musique, la vid\u00e9o et les articles en ligne. Cela doit \u00eatre nettoy\u00e9 et d\u00e9doublonn\u00e9, ce qui n\u00e9cessite des comp\u00e9tences avanc\u00e9es en sciences des donn\u00e9es.<\/p>\n<p>\u00ab\u00a0C\u2019est pourquoi nous cherchons \u00e0 impliquer la communaut\u00e9 et c\u2019est pourquoi nous organisons un mini-concours pour les data scientists. C\u2019est un ensemble de donn\u00e9es massif et nous avons besoin d\u2019aide\u00a0\u00bb, explique Anna.<\/p>\n<p>Dans un billet de blog annon\u00e7ant les nouveaux changements et le concours, le m\u00e9tamoteur note \u00e9galement que des chercheurs en intelligence artificielle ont montr\u00e9 de l\u2019int\u00e9r\u00eat pour le projet. Cela a du sens, car les grandes biblioth\u00e8ques sont id\u00e9ales pour former des mod\u00e8les de langage.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"IA_et_risques_juridiques\"><\/span>IA et risques juridiques<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Il est suppos\u00e9 que de nombreux outils d\u2019IA commerciaux, y compris ChatGPT d\u2019OpenAI, ont \u00e9t\u00e9 form\u00e9s sur des livres provenant de biblioth\u00e8ques clandestines. Cela a d\u00e9clench\u00e9 une s\u00e9rie de poursuites pour violation des droits d\u2019auteur qui sont en cours.<\/p>\n<p>En ce moment, il y a encore beaucoup d\u2019incertitude sur les donn\u00e9es qui peuvent \u00eatre utilis\u00e9es et dans quelles conditions, mais les tribunaux et les l\u00e9gislateurs apporteront plus de conseils \u00e0 cet \u00e9gard dans les ann\u00e9es \u00e0 venir.<\/p>\n<p>L\u2019incertitude n\u2019a pas emp\u00each\u00e9 les groupes d\u2019IA de contacter l\u2019Archive d\u2019Anna, qui re\u00e7oit des courriels de cr\u00e9ateurs de LLM tous les jours et travaille activement avec plusieurs parties non nomm\u00e9es.<\/p>\n<p>Inutile de dire que diriger les plus grands moteurs de recherche de biblioth\u00e8ques clandestines n\u2019est pas sans risque. Les \u00e9diteurs et les auteurs voient probablement l\u2019Archive d\u2019Anna comme une op\u00e9ration de piratage massive et les menaces juridiques planent constamment.<\/p>\n<p>L\u2019Archive d\u2019Anna est bien consciente de ces risques et est \u00ab\u00a0\u00e9videmment tr\u00e8s inqui\u00e8te\u00a0\u00bb. Cependant, l\u2019\u00e9quipe derri\u00e8re le site estime que ces risques valent la peine d\u2019\u00eatre pris dans le cadre d\u2019un projet plus vaste.<\/p>\n<p>\u00ab\u00a0Nous pensons que des efforts comme le n\u00f4tre pour pr\u00e9server l\u2019h\u00e9ritage de l\u2019humanit\u00e9 devraient \u00eatre enti\u00e8rement l\u00e9gaux et que le droit d\u2019auteur est beaucoup trop strict. Mais h\u00e9las, ce n\u2019est pas le cas. Nous prenons toutes les pr\u00e9cautions n\u00e9cessaires. Cette mission est tellement importante qu\u2019elle en vaut la peine\u00a0\u00bb, conclut Anna.<\/p>","protected":false},"excerpt":{"rendered":"","protected":false},"author":1,"featured_media":12527,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_seopress_robots_primary_cat":"","_seopress_titles_title":"","_seopress_titles_desc":"","_seopress_robots_index":"","footnotes":""},"categories":[586],"tags":[],"class_list":["post-6498","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-actu-tech","generate-columns","tablet-grid-50","mobile-grid-100","grid-parent","grid-50"],"_links":{"self":[{"href":"https:\/\/toukiela.com\/de\/wp-json\/wp\/v2\/posts\/6498","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/toukiela.com\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/toukiela.com\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/toukiela.com\/de\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/toukiela.com\/de\/wp-json\/wp\/v2\/comments?post=6498"}],"version-history":[{"count":1,"href":"https:\/\/toukiela.com\/de\/wp-json\/wp\/v2\/posts\/6498\/revisions"}],"predecessor-version":[{"id":6499,"href":"https:\/\/toukiela.com\/de\/wp-json\/wp\/v2\/posts\/6498\/revisions\/6499"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/toukiela.com\/de\/wp-json\/wp\/v2\/media\/12527"}],"wp:attachment":[{"href":"https:\/\/toukiela.com\/de\/wp-json\/wp\/v2\/media?parent=6498"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/toukiela.com\/de\/wp-json\/wp\/v2\/categories?post=6498"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/toukiela.com\/de\/wp-json\/wp\/v2\/tags?post=6498"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}