{"id":7813,"date":"2023-11-15T18:10:40","date_gmt":"2023-11-15T16:10:40","guid":{"rendered":"https:\/\/toukiela.com\/openai-le-geant-de-lia-cherche-des-partenaires-pour-creer-des-ensembles-de-donnees-dentrainement-revolutionnaires\/"},"modified":"2023-11-15T18:10:41","modified_gmt":"2023-11-15T16:10:41","slug":"openai-le-geant-de-lia-cherche-des-partenaires-pour-creer-des-ensembles-de-donnees-dentrainement-revolutionnaires","status":"publish","type":"post","link":"https:\/\/toukiela.com\/en\/openai-le-geant-de-lia-cherche-des-partenaires-pour-creer-des-ensembles-de-donnees-dentrainement-revolutionnaires\/","title":{"rendered":"OpenAI, le g\u00e9ant de l&rsquo;IA, cherche des partenaires pour cr\u00e9er des ensembles de donn\u00e9es d&rsquo;entra\u00eenement r\u00e9volutionnaires"},"content":{"rendered":"<p><em><\/em><\/p>\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_82_2 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">Contents<\/p>\n<label for=\"ez-toc-cssicon-toggle-item-69f1f0a9f12b4\" class=\"ez-toc-cssicon-toggle-label\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Toggle<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewbox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewbox=\"0 0 24 24\" version=\"1.2\" baseprofile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/label><input type=\"checkbox\"  id=\"ez-toc-cssicon-toggle-item-69f1f0a9f12b4\"  aria-label=\"Toggle\" \/><nav><ul class='ez-toc-list ez-toc-list-level-1' ><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/toukiela.com\/en\/openai-le-geant-de-lia-cherche-des-partenaires-pour-creer-des-ensembles-de-donnees-dentrainement-revolutionnaires\/#OpenAI_annonce_des_partenariats_de_donnees_pour_ameliorer_lentrainement_des_modeles_IA\" >OpenAI annonce des partenariats de donn\u00e9es pour am\u00e9liorer l\u2019entra\u00eenement des mod\u00e8les IA<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/toukiela.com\/en\/openai-le-geant-de-lia-cherche-des-partenaires-pour-creer-des-ensembles-de-donnees-dentrainement-revolutionnaires\/#Un_effort_de_collaboration_pour_construire_de_nouveaux_ensembles_de_donnees\" >Un effort de collaboration pour construire de nouveaux ensembles de donn\u00e9es<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/toukiela.com\/en\/openai-le-geant-de-lia-cherche-des-partenaires-pour-creer-des-ensembles-de-donnees-dentrainement-revolutionnaires\/#La_collecte_de_grands_ensembles_de_donnees_refletant_la_societe_humaine\" >La collecte de grands ensembles de donn\u00e9es refl\u00e9tant la soci\u00e9t\u00e9 humaine<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-4\" href=\"https:\/\/toukiela.com\/en\/openai-le-geant-de-lia-cherche-des-partenaires-pour-creer-des-ensembles-de-donnees-dentrainement-revolutionnaires\/#Deux_types_densembles_de_donnees\" >Deux types d\u2019ensembles de donn\u00e9es<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-5\" href=\"https:\/\/toukiela.com\/en\/openai-le-geant-de-lia-cherche-des-partenaires-pour-creer-des-ensembles-de-donnees-dentrainement-revolutionnaires\/#Les_defis_de_la_reduction_des_biais_dans_les_ensembles_de_donnees\" >Les d\u00e9fis de la r\u00e9duction des biais dans les ensembles de donn\u00e9es<\/a><\/li><\/ul><\/nav><\/div>\n<h2><span class=\"ez-toc-section\" id=\"OpenAI_annonce_des_partenariats_de_donnees_pour_ameliorer_lentrainement_des_modeles_IA\"><\/span>OpenAI annonce des partenariats de donn\u00e9es pour am\u00e9liorer l\u2019entra\u00eenement des mod\u00e8les IA<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Il est de notori\u00e9t\u00e9 publique que les ensembles de donn\u00e9es utilis\u00e9s pour entra\u00eener les mod\u00e8les d\u2019IA sont profond\u00e9ment d\u00e9fectueux. Les corpus d\u2019images ont tendance \u00e0 \u00eatre centr\u00e9s sur les \u00c9tats-Unis et l\u2019Occident, en partie parce que les images occidentales dominaient Internet lors de la compilation des ensembles de donn\u00e9es. Et comme l\u2019a r\u00e9cemment soulign\u00e9 une \u00e9tude de l\u2019Institut Allen pour l\u2019IA, les donn\u00e9es utilis\u00e9es pour entra\u00eener les grands mod\u00e8les de langage comme Meta\u2019s Llama 2 contiennent un langage toxique et des biais.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"Un_effort_de_collaboration_pour_construire_de_nouveaux_ensembles_de_donnees\"><\/span>Un effort de collaboration pour construire de nouveaux ensembles de donn\u00e9es<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Les mod\u00e8les amplifient ces d\u00e9fauts de mani\u00e8re nocive. Maintenant, OpenAI dit qu\u2019il veut les combattre en s\u2019associant \u00e0 des institutions ext\u00e9rieures pour cr\u00e9er de nouveaux ensembles de donn\u00e9es, esp\u00e9rons-le am\u00e9lior\u00e9s.<\/p>\n<p>OpenAI a annonc\u00e9 aujourd\u2019hui des partenariats de donn\u00e9es, un effort de collaboration avec des organisations tierces pour construire des ensembles de donn\u00e9es publics et priv\u00e9s pour l\u2019entra\u00eenement des mod\u00e8les d\u2019IA. Dans un article de blog, OpenAI d\u00e9clare que les partenariats de donn\u00e9es ont pour but de \u00ab\u00a0permettre \u00e0 davantage d\u2019organisations de contribuer \u00e0 l\u2019avenir de l\u2019IA\u00a0\u00bb et de \u00ab\u00a0b\u00e9n\u00e9ficier de mod\u00e8les plus utiles\u00a0\u00bb.<\/p>\n<p>\u00ab\u00a0Pour finalement cr\u00e9er une IA qui soit s\u00fbre et b\u00e9n\u00e9fique pour toute l\u2019humanit\u00e9, nous aimerions que les mod\u00e8les d\u2019IA comprennent en profondeur tous les sujets, industries, cultures et langues, ce qui n\u00e9cessite un ensemble de donn\u00e9es d\u2019entra\u00eenement aussi large que possible\u00a0\u00bb, \u00e9crit OpenAI. \u00ab\u00a0Inclure votre contenu peut rendre les mod\u00e8les d\u2019IA plus utiles pour vous en augmentant leur compr\u00e9hension de votre domaine.\u00a0\u00bb<\/p>\n<h2><span class=\"ez-toc-section\" id=\"La_collecte_de_grands_ensembles_de_donnees_refletant_la_societe_humaine\"><\/span>La collecte de grands ensembles de donn\u00e9es refl\u00e9tant la soci\u00e9t\u00e9 humaine<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Dans le cadre du programme de partenariats de donn\u00e9es, OpenAI pr\u00e9voit de collecter des ensembles de donn\u00e9es \u00ab\u00a0\u00e0 grande \u00e9chelle\u00a0\u00bb qui \u00ab\u00a0refl\u00e8tent la soci\u00e9t\u00e9 humaine\u00a0\u00bb et qui ne sont pas facilement accessibles en ligne aujourd\u2019hui. Bien que la soci\u00e9t\u00e9 pr\u00e9voie de travailler dans un large \u00e9ventail de modalit\u00e9s, y compris les images, l\u2019audio et la vid\u00e9o, elle recherche particuli\u00e8rement des donn\u00e9es qui \u00ab\u00a0expriment l\u2019intention humaine\u00a0\u00bb (par exemple, des \u00e9crits longs ou des conversations) dans diff\u00e9rentes langues, sujets et formats.<\/p>\n<p>OpenAI dit qu\u2019elle travaillera avec des organisations pour num\u00e9riser les donn\u00e9es d\u2019entra\u00eenement si n\u00e9cessaire, en utilisant une combinaison d\u2019outils de reconnaissance optique de caract\u00e8res et de reconnaissance automatique de la parole, et en supprimant les informations sensibles ou personnelles si n\u00e9cessaire.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"Deux_types_densembles_de_donnees\"><\/span>Deux types d\u2019ensembles de donn\u00e9es<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Au d\u00e9part, OpenAI cherche \u00e0 cr\u00e9er deux types d\u2019ensembles de donn\u00e9es : un ensemble de donn\u00e9es open source qui serait public et accessible \u00e0 tous pour l\u2019entra\u00eenement des mod\u00e8les d\u2019IA, et un ensemble de donn\u00e9es priv\u00e9es pour l\u2019entra\u00eenement de mod\u00e8les d\u2019IA propri\u00e9taires. Les ensembles priv\u00e9s sont destin\u00e9s aux organisations qui souhaitent garder leurs donn\u00e9es confidentielles mais qui veulent que les mod\u00e8les d\u2019OpenAI aient une meilleure compr\u00e9hension de leur domaine. Jusqu\u2019\u00e0 pr\u00e9sent, OpenAI a travaill\u00e9 avec le gouvernement islandais et Mi\u00f0eind ehf pour am\u00e9liorer la capacit\u00e9 de GPT-4 \u00e0 parler islandais, ainsi qu\u2019avec le Free Law Project pour am\u00e9liorer la compr\u00e9hension des documents juridiques par ses mod\u00e8les.<\/p>\n<p>\u00ab\u00a0Dans l\u2019ensemble, nous recherchons des partenaires qui souhaitent nous aider \u00e0 enseigner \u00e0 l\u2019IA \u00e0 comprendre notre monde afin d\u2019\u00eatre le plus utile possible \u00e0 tous\u00a0\u00bb, \u00e9crit OpenAI.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"Les_defis_de_la_reduction_des_biais_dans_les_ensembles_de_donnees\"><\/span>Les d\u00e9fis de la r\u00e9duction des biais dans les ensembles de donn\u00e9es<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Alors, OpenAI peut-il faire mieux que les nombreux efforts de construction d\u2019ensembles de donn\u00e9es qui l\u2019ont pr\u00e9c\u00e9d\u00e9 ? Je ne suis pas si s\u00fbr \u2013 la r\u00e9duction des biais dans les ensembles de donn\u00e9es est un probl\u00e8me qui a d\u00e9concert\u00e9 bon nombre des experts mondiaux. \u00c0 tout le moins, j\u2019esp\u00e8re que l\u2019entreprise sera transparente sur le processus \u2013 et sur les d\u00e9fis qu\u2019elle rencontre in\u00e9vitablement dans la cr\u00e9ation de ces ensembles de donn\u00e9es.<\/p>\n<p>Malgr\u00e9 le langage grandiloquent de l\u2019article de blog, il semble aussi y avoir une claire motivation commerciale ici, \u00e0 savoir am\u00e9liorer les performances des mod\u00e8les d\u2019OpenAI au d\u00e9triment des autres \u2013 et sans compensation notable pour les propri\u00e9taires des donn\u00e9es. Je suppose que cela rel\u00e8ve du droit d\u2019OpenAI. Mais cela semble un peu d\u00e9cal\u00e9 \u00e0 la lumi\u00e8re des lettres ouvertes et des poursuites intent\u00e9es par des cr\u00e9ateurs all\u00e9guant qu\u2019OpenAI a form\u00e9 bon nombre de ses mod\u00e8les sur leur travail sans leur permission ni leur r\u00e9mun\u00e9ration.<\/p>","protected":false},"excerpt":{"rendered":"","protected":false},"author":1,"featured_media":7815,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_seopress_robots_primary_cat":"","_seopress_titles_title":"","_seopress_titles_desc":"","_seopress_robots_index":"","footnotes":""},"categories":[608],"tags":[],"class_list":["post-7813","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-actualite-intelligence-artificielle","generate-columns","tablet-grid-50","mobile-grid-100","grid-parent","grid-50"],"_links":{"self":[{"href":"https:\/\/toukiela.com\/en\/wp-json\/wp\/v2\/posts\/7813","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/toukiela.com\/en\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/toukiela.com\/en\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/toukiela.com\/en\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/toukiela.com\/en\/wp-json\/wp\/v2\/comments?post=7813"}],"version-history":[{"count":1,"href":"https:\/\/toukiela.com\/en\/wp-json\/wp\/v2\/posts\/7813\/revisions"}],"predecessor-version":[{"id":7814,"href":"https:\/\/toukiela.com\/en\/wp-json\/wp\/v2\/posts\/7813\/revisions\/7814"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/toukiela.com\/en\/wp-json\/wp\/v2\/media\/7815"}],"wp:attachment":[{"href":"https:\/\/toukiela.com\/en\/wp-json\/wp\/v2\/media?parent=7813"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/toukiela.com\/en\/wp-json\/wp\/v2\/categories?post=7813"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/toukiela.com\/en\/wp-json\/wp\/v2\/tags?post=7813"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}