Découvrez les incroyables modèles d'IA de génération de texte, libérés en open source par AI2, avec les données utilisées pour les entraîner !

L’Allen Institute for AI (AI2) publie des modèles de langage GenAI « ouverts » et accessibles pour les développeurs

L’Allen Institute for AI (AI2), l’institut de recherche en intelligence artificielle à but non lucratif fondé par le cofondateur de Microsoft, Paul Allen, met à disposition plusieurs modèles de langage GenAI qu’il prétend être plus « ouverts » que les autres – et surtout, sous licence de manière à ce que les développeurs puissent les utiliser librement pour l’entraînement, l’expérimentation et même la commercialisation.

Un cadre ouvert pour étudier l’IA génératrice de texte

Appelés OLMo, acronyme de « Open Language Models », les modèles et l’ensemble de données utilisé pour les former, Dolma – l’un des plus grands ensembles de données publics de ce genre – ont été conçus pour étudier la science de haut niveau derrière l’IA génératrice de texte, selon Dirk Groeneveld, ingénieur logiciel principal chez AI2.

Des modèles réellement ouverts

Les modèles de génération de texte en open source se multiplient, avec des organisations telles que Meta et Mistral qui publient des modèles très performants que tout développeur peut utiliser et affiner. Cependant, Groeneveld soutient que bon nombre de ces modèles ne peuvent pas vraiment être considérés comme ouverts car ils ont été entraînés « à huis clos » et sur des ensembles de données propriétaires et opaques.

En revanche, les modèles OLMo, créés avec l’aide de partenaires tels que Harvard, AMD et Databricks, sont livrés avec le code qui a été utilisé pour produire leurs données d’entraînement, ainsi que les métriques d’entraînement et d’évaluation.

Performances et limitations des modèles OLMo

Le modèle OLMo le plus performant, OLMo 7B, est une alternative « convaincante et solide » au modèle Llama 2 de Meta, affirme Groeneveld – selon l’application. Sur certains benchmarks, en particulier ceux touchant à la compréhension de lecture, OLMo 7B dépasse Llama 2. Mais sur d’autres, en particulier les tests de questions-réponses, OLMo 7B est légèrement en retrait.

Les modèles OLMo ont d’autres limitations, comme des sorties de faible qualité dans des langues autres que l’anglais (Dolma contient principalement du contenu en anglais) et des capacités de génération de code faibles. Mais Groeneveld souligne qu’il est encore tôt.

Un cadre en évolution

“OLMo n’est pas encore conçu pour être multilingue”, déclare-t-il. « À ce stade, l’accent principal du cadre OLMo n’était pas la génération de code, mais pour donner une longueur d’avance aux futurs projets d’affinage basés sur le code, le mélange de données d’OLMo contient actuellement environ 15% de code. »

Les préoccupations concernant l’utilisation malveillante des modèles OLMo

J’ai demandé à Groeneveld s’il était préoccupé par le fait que les modèles OLMo, qui peuvent être utilisés commercialement et sont suffisamment performants pour fonctionner sur des GPU grand public tels que le Nvidia 3090, pourraient être utilisés de manière non intentionnelle et potentiellement malveillante par des acteurs malveillants. Une étude récente du projet Disinfo Radar de Democracy Reporting International, qui vise à identifier et à contrer les tendances et les technologies de désinformation, a révélé que deux modèles de génération de texte ouverts populaires, Zephyr de Hugging Face et Dolly de Databricks, génèrent de manière fiable du contenu toxique – en répondant à des sollicitations malveillantes par du contenu préjudiciable « imaginatif ».

Groeneveld estime que les avantages l’emportent sur les inconvénients.

« Construire cette plateforme ouverte facilitera en fait davantage de recherches sur la manière dont ces modèles peuvent être dangereux et sur ce que nous pouvons faire pour les corriger », a-t-il déclaré. « Oui, il est possible que les modèles ouverts soient utilisés de manière inappropriée ou à des fins non intentionnelles. Cependant, cette approche favorise également les avancées techniques qui conduisent à des modèles plus éthiques ; elle est une condition préalable à la vérification et à la reproductibilité, car celles-ci ne peuvent être réalisées qu’avec un accès à l’ensemble complet ; et elle réduit une concentration croissante du pouvoir, créant ainsi un accès plus équitable. »

Des modèles OLMo plus grands et plus performants à venir

Dans les mois à venir, AI2 prévoit de publier des modèles OLMo plus grands et plus performants, y compris des modèles multimodaux (c’est-à-dire des modèles qui comprennent des modalités autres que le texte), ainsi que des ensembles de données supplémentaires pour l’entraînement et l’affinage. Comme pour la première version d’OLMo et Dolma, toutes les ressources seront mises à disposition gratuitement sur GitHub et la plateforme d’hébergement de projets d’IA Hugging Face.

Découvrez les incroyables modèles d’IA de génération de texte, libérés en open source par AI2, avec les données utilisées pour les entraîner !