Anna dévoile son incroyable exploit : elle a piraté WorldCat pour préserver ‘tous’ les livres du monde !

La montée en puissance des bibliothèques clandestines

Il y a quelques années, le piratage de livres était considéré comme une activité marginale qui ne faisait que rarement la une des journaux, mais les temps ont changé.

L’année dernière, le département de la justice américain a ciblé le site de bibliothèque clandestine populaire Z-Library, l’accusant de violations massives des droits d’auteur. Deux des opérateurs présumés du site ont été arrêtés et leur poursuite est toujours en cours.

Ces derniers mois, des bibliothèques clandestines ont également été impliquées dans d’autres poursuites judiciaires. Par exemple, des éditeurs ont poursuivi Libgen pour des niveaux de violations « stupéfiants ». Dans le même temps, plusieurs poursuites ont accusé OpenAI d’utiliser Libgen et d’autres bibliothèques non autorisées pour former leurs grands modèles de langage.

Ces efforts juridiques ont mis les opérateurs des bibliothèques clandestines sous une pression sérieuse, mais elles restent en ligne, du moins pour le moment. En fait, la répression de Z-Library a propulsé un nouvel acteur sur le devant de la scène l’année dernière : l’Archive d’Anna.

L’expansion de l’Archive d’Anna

L’Archive d’Anna est un moteur de recherche métamoteur pour les sources de piratage de livres et les bibliothèques clandestines. Le site a été lancé quelques jours après que Z-Library ait été ciblé en novembre dernier, afin de garantir et de faciliter la disponibilité des livres et des articles au grand public.

Avec plus de 20 millions de livres indexés et près de 100 millions de documents – dont beaucoup sont partagés sans autorisation – l’Archive d’Anna a déjà parcouru un long chemin. Cela n’a pas échappé à l’attention du grand public, car le métamoteur a plus de 12 millions de visites mensuelles selon les estimations récentes du trafic.

Pour l’Archive d’Anna, tout cela n’est que le début. Les personnes derrière le site cherchent à jouer un rôle essentiel dans la préservation de tous les livres disponibles dans le monde, même si cela signifie aller à l’encontre de la loi sur le droit d’auteur.

Le scraping des milliards de données de WorldCat

Cette semaine, le moteur de recherche a annoncé un nouveau jalon qui devrait l’aider à atteindre cet objectif ultime. Au cours des derniers mois, l’Archive d’Anna a secrètement extrait les données de WorldCat, la plus grande base de données de métadonnées de livres du monde.

WorldCat est géré par l’organisation à but non lucratif OCLC et travaille avec des dizaines de milliers de bibliothèques dans le monde. Sa base de données est propriétaire et n’est pas librement disponible, mais l’Archive d’Anna a réussi à contourner les restrictions pour en faire sa propre copie gratuitement.

« Même si OCLC est à but non lucratif, leur modèle économique nécessite la protection de leur base de données. Eh bien, nous sommes désolés de le dire, amis d’OCLC, nous donnons tout gratuitement », note l’Archive d’Anna.

Le métamoteur affirme avoir extrait trois téraoctets de métadonnées, ce qui représente 1,3 milliard d’identifiants uniques qui, après avoir éliminé les doublons et autres bruits, correspondent à 700 millions d’enregistrements uniques.

Un objectif supérieur

L’utilisateur moyen n’est probablement pas particulièrement intéressé par le téléchargement de métadonnées ; il veut des livres. Cependant, l’Archive d’Anna estime que ces enregistrements aideront à atteindre son objectif ultime.

« Nous pensons que cette publication marque une étape importante dans la cartographie de tous les livres du monde. Nous pouvons maintenant travailler sur une liste de choses à faire de tous les livres qui doivent encore être préservés.

C’est une tâche énorme qui nécessite de nombreuses personnes et institutions qui y travaillent, tant les bibliothèques légales que les bibliothèques clandestines, et nous espérons être un pilier de cet effort », déclare Anna à Toukiela.

La collecte des données de WorldCat n’est que la première étape. La prochaine consiste à mettre ces informations à profit et à déterminer à quel point les offres actuelles des bibliothèques sont complètes.

Donner un sens aux données

Les données de WorldCat ne se limitent pas seulement aux livres, elles incluent également la musique, la vidéo et les articles en ligne. Cela doit être nettoyé et dédoublonné, ce qui nécessite des compétences avancées en sciences des données.

« C’est pourquoi nous cherchons à impliquer la communauté et c’est pourquoi nous organisons un mini-concours pour les data scientists. C’est un ensemble de données massif et nous avons besoin d’aide », explique Anna.

Dans un billet de blog annonçant les nouveaux changements et le concours, le métamoteur note également que des chercheurs en intelligence artificielle ont montré de l’intérêt pour le projet. Cela a du sens, car les grandes bibliothèques sont idéales pour former des modèles de langage.

IA et risques juridiques

Il est supposé que de nombreux outils d’IA commerciaux, y compris ChatGPT d’OpenAI, ont été formés sur des livres provenant de bibliothèques clandestines. Cela a déclenché une série de poursuites pour violation des droits d’auteur qui sont en cours.

En ce moment, il y a encore beaucoup d’incertitude sur les données qui peuvent être utilisées et dans quelles conditions, mais les tribunaux et les législateurs apporteront plus de conseils à cet égard dans les années à venir.

L’incertitude n’a pas empêché les groupes d’IA de contacter l’Archive d’Anna, qui reçoit des courriels de créateurs de LLM tous les jours et travaille activement avec plusieurs parties non nommées.

Inutile de dire que diriger les plus grands moteurs de recherche de bibliothèques clandestines n’est pas sans risque. Les éditeurs et les auteurs voient probablement l’Archive d’Anna comme une opération de piratage massive et les menaces juridiques planent constamment.

L’Archive d’Anna est bien consciente de ces risques et est « évidemment très inquiète ». Cependant, l’équipe derrière le site estime que ces risques valent la peine d’être pris dans le cadre d’un projet plus vaste.

« Nous pensons que des efforts comme le nôtre pour préserver l’héritage de l’humanité devraient être entièrement légaux et que le droit d’auteur est beaucoup trop strict. Mais hélas, ce n’est pas le cas. Nous prenons toutes les précautions nécessaires. Cette mission est tellement importante qu’elle en vaut la peine », conclut Anna.

Teilen Sie Ihre Meinung mit

Diese Seite verwendet Akismet, um Spam zu reduzieren. Erfahre, wie deine Kommentardaten verarbeitet werden..