Inhaltsverzeichnis
OpenAI annonce des partenariats de données pour améliorer l’entraînement des modèles IA
Il est de notoriété publique que les ensembles de données utilisés pour entraîner les modèles d’IA sont profondément défectueux. Les corpus d’images ont tendance à être centrés sur les États-Unis et l’Occident, en partie parce que les images occidentales dominaient Internet lors de la compilation des ensembles de données. Et comme l’a récemment souligné une étude de l’Institut Allen pour l’IA, les données utilisées pour entraîner les grands modèles de langage comme Meta’s Llama 2 contiennent un langage toxique et des biais.
Un effort de collaboration pour construire de nouveaux ensembles de données
Les modèles amplifient ces défauts de manière nocive. Maintenant, OpenAI dit qu’il veut les combattre en s’associant à des institutions extérieures pour créer de nouveaux ensembles de données, espérons-le améliorés.
OpenAI a annoncé aujourd’hui des partenariats de données, un effort de collaboration avec des organisations tierces pour construire des ensembles de données publics et privés pour l’entraînement des modèles d’IA. Dans un article de blog, OpenAI déclare que les partenariats de données ont pour but de « permettre à davantage d’organisations de contribuer à l’avenir de l’IA » et de « bénéficier de modèles plus utiles ».
« Pour finalement créer une IA qui soit sûre et bénéfique pour toute l’humanité, nous aimerions que les modèles d’IA comprennent en profondeur tous les sujets, industries, cultures et langues, ce qui nécessite un ensemble de données d’entraînement aussi large que possible », écrit OpenAI. « Inclure votre contenu peut rendre les modèles d’IA plus utiles pour vous en augmentant leur compréhension de votre domaine. »
La collecte de grands ensembles de données reflétant la société humaine
Dans le cadre du programme de partenariats de données, OpenAI prévoit de collecter des ensembles de données « à grande échelle » qui « reflètent la société humaine » et qui ne sont pas facilement accessibles en ligne aujourd’hui. Bien que la société prévoie de travailler dans un large éventail de modalités, y compris les images, l’audio et la vidéo, elle recherche particulièrement des données qui « expriment l’intention humaine » (par exemple, des écrits longs ou des conversations) dans différentes langues, sujets et formats.
OpenAI dit qu’elle travaillera avec des organisations pour numériser les données d’entraînement si nécessaire, en utilisant une combinaison d’outils de reconnaissance optique de caractères et de reconnaissance automatique de la parole, et en supprimant les informations sensibles ou personnelles si nécessaire.
Deux types d’ensembles de données
Au départ, OpenAI cherche à créer deux types d’ensembles de données : un ensemble de données open source qui serait public et accessible à tous pour l’entraînement des modèles d’IA, et un ensemble de données privées pour l’entraînement de modèles d’IA propriétaires. Les ensembles privés sont destinés aux organisations qui souhaitent garder leurs données confidentielles mais qui veulent que les modèles d’OpenAI aient une meilleure compréhension de leur domaine. Jusqu’à présent, OpenAI a travaillé avec le gouvernement islandais et Miðeind ehf pour améliorer la capacité de GPT-4 à parler islandais, ainsi qu’avec le Free Law Project pour améliorer la compréhension des documents juridiques par ses modèles.
« Dans l’ensemble, nous recherchons des partenaires qui souhaitent nous aider à enseigner à l’IA à comprendre notre monde afin d’être le plus utile possible à tous », écrit OpenAI.
Les défis de la réduction des biais dans les ensembles de données
Alors, OpenAI peut-il faire mieux que les nombreux efforts de construction d’ensembles de données qui l’ont précédé ? Je ne suis pas si sûr – la réduction des biais dans les ensembles de données est un problème qui a déconcerté bon nombre des experts mondiaux. À tout le moins, j’espère que l’entreprise sera transparente sur le processus – et sur les défis qu’elle rencontre inévitablement dans la création de ces ensembles de données.
Malgré le langage grandiloquent de l’article de blog, il semble aussi y avoir une claire motivation commerciale ici, à savoir améliorer les performances des modèles d’OpenAI au détriment des autres – et sans compensation notable pour les propriétaires des données. Je suppose que cela relève du droit d’OpenAI. Mais cela semble un peu décalé à la lumière des lettres ouvertes et des poursuites intentées par des créateurs alléguant qu’OpenAI a formé bon nombre de ses modèles sur leur travail sans leur permission ni leur rémunération.