Inhaltsverzeichnis
Les problèmes des modèles de langage
Les grands modèles de langage (LLM), tels que ChatGPT d’OpenAI, souffrent tous du même problème : ils inventent des informations.
Ces erreurs vont du bizarre et inoffensif – comme prétendre que le pont du Golden Gate a été transporté en Égypte en 2016 – à des problèmes graves, voire dangereux.
Récemment, un maire en Australie a menacé de poursuivre OpenAI parce que ChatGPT affirmait à tort qu’il avait plaidé coupable dans un important scandale de corruption. Des chercheurs ont découvert que les hallucinations des LLM peuvent être exploitées pour distribuer des codes malveillants à des développeurs de logiciels sans méfiance. De plus, les LLM donnent souvent de mauvais conseils en matière de santé mentale et médicale, comme celui selon lequel la consommation de vin peut « prévenir le cancer ».
Cette tendance à inventer des « faits » est un phénomène connu sous le nom d’hallucination, et cela se produit en raison de la façon dont les LLM d’aujourd’hui – et tous les modèles d’IA générative, en fait – sont développés et formés.
Formation des modèles
Les modèles d’IA générative n’ont pas une véritable intelligence – ce sont des systèmes statistiques qui prédisent des mots, des images, de la parole, de la musique ou d’autres données. En leur fournissant un nombre énorme d’exemples, généralement issus du web public, les modèles d’IA apprennent la probabilité d’occurrence des données en fonction des motifs, y compris le contexte des données environnantes.
Par exemple, lorsqu’on lui donne un email typique se terminant par le fragment « Looking forward… », un LLM pourrait le compléter par « … to hearing back » – suivant le modèle des innombrables emails sur lesquels il a été formé. Cela ne signifie pas que le LLM attend quoi que ce soit avec impatience.
« Le cadre actuel de formation des LLM implique de masquer les mots précédents pour le contexte » et de demander au modèle de prédire quels mots doivent remplacer ceux qui sont masqués, explique Sebastian Berns, chercheur en doctorat à la Queen Mary University de Londres, dans une interview par courrier électronique avec TechCrunch. « Cela est conceptuellement similaire à l’utilisation du texte prédictif dans iOS et à l’appui continu de l’un des mots suggérés suivants. »
Cette approche basée sur la probabilité fonctionne remarquablement bien à grande échelle – pour la plupart. Mais bien que la gamme de mots et leurs probabilités soient susceptibles de donner un texte cohérent, cela est loin d’être certain.
Les LLM peuvent générer quelque chose de grammaticalement correct mais dénué de sens, par exemple – comme l’affirmation sur le Golden Gate. Ou ils peuvent proférer des contrevérités, propageant des inexactitudes dans leurs données d’entraînement. Ou ils peuvent confondre différentes sources d’information, y compris des sources fictives, même si ces sources se contredisent clairement.
Ce n’est pas malveillant de la part des LLM. Ils n’ont pas de malice, et les concepts de vrai et de faux n’ont pas de sens pour eux. Ils ont simplement appris à associer certains mots ou phrases à certains concepts, même si ces associations ne sont pas exactes.
« Les ‘hallucinations’ sont liées à l’incapacité d’un LLM à estimer l’incertitude de sa propre prédiction », explique Berns. « Un LLM est généralement formé pour produire toujours une sortie, même lorsque l’entrée est très différente des données d’entraînement. Un LLM standard n’a aucun moyen de savoir s’il est capable de répondre de manière fiable à une requête ou de faire une prédiction. »
Résoudre l’hallucination
La question est de savoir si l’hallucination peut être résolue. Cela dépend de ce que l’on entend par « résolu ».
Vu Ha, chercheur appliqué et ingénieur à l’Allen Institute for Artificial Intelligence, affirme que les LLM « hallucinent et hallucineront toujours ». Mais il croit également qu’il existe des moyens concrets de réduire – sans toutefois éliminer – les hallucinations, en fonction de la façon dont un LLM est formé et déployé.
« Prenons un système de réponses aux questions », explique Ha par courrier électronique. « Il est possible de le concevoir pour qu’il ait une grande précision en constituant une base de connaissances de haute qualité de questions et de réponses, et en reliant cette base de connaissances à un LLM pour fournir des réponses précises via un processus de récupération. »
Ha illustre la différence entre un LLM disposant d’une base de connaissances « de haute qualité » sur laquelle s’appuyer et un autre avec une curation de données moins rigoureuse. Il a posé la question « Qui sont les auteurs de l’article Toolformer ? » (Toolformer est un modèle d’IA formé par Meta) dans le chat Bing de Microsoft, propulsé par un LLM, et dans le chat Bard de Google. Bing Chat a correctement répertorié les huit co-auteurs de Meta, tandis que Bard a attribué l’article à des chercheurs de Google et de Hugging Face.
« Tout LLM déployé aura des hallucinations. La vraie question est de savoir si les avantages l’emportent sur les conséquences négatives causées par l’hallucination », explique Ha. En d’autres termes, s’il n’y a aucun dommage évident causé par un modèle – si le modèle se trompe occasionnellement dans une date ou un nom, par exemple – mais qu’il est par ailleurs utile, cela pourrait valoir le compromis. « Il s’agit de maximiser l’utilité attendue de l’IA », ajoute-t-il.
Berns a souligné une autre technique qui avait été utilisée avec un certain succès pour réduire les hallucinations dans les LLM : l’apprentissage par renforcement à partir des commentaires humains (RLHF). Introduit par OpenAI en 2017, le RLHF consiste à former un LLM, puis à recueillir des informations supplémentaires pour former un modèle de « récompense » et à affiner le LLM avec le modèle de récompense via l’apprentissage par renforcement.
Dans le RLHF, un ensemble de requêtes d’un ensemble de données prédéfini est passé à un LLM pour générer un nouveau texte. Ensuite, des annotateurs humains sont utilisés pour classer les sorties du LLM en termes de « pertinence » globale – des données qui sont utilisées pour former le modèle de récompense. Le modèle de récompense, qui peut maintenant prendre n’importe quel texte et lui attribuer une note en fonction de la perception humaine, est ensuite utilisé pour affiner les réponses générées par le LLM.
OpenAI a utilisé le RLHF pour former plusieurs de ses modèles, y compris GPT-4. Mais même le RLHF n’est pas parfait, prévient Berns.
« Je pense que l’espace des possibilités est trop vaste pour ‘aligner’ complètement les LLM avec le RLHF », dit Berns. « Ce qui est souvent fait dans le cadre du RLHF, c’est former un modèle pour produire une réponse ‘Je ne sais pas’ [à une question difficile], en se basant principalement sur les connaissances humaines du domaine et en espérant que le modèle généralise ces connaissances à son propre domaine. Souvent, cela fonctionne, mais cela peut être un peu capricieux. »
Philosophies alternatives
En supposant que l’hallucination n’est pas résoluble, du moins avec les LLM d’aujourd’hui, est-ce une mauvaise chose ? Berns ne le pense pas, en réalité. Les modèles hallucinants pourraient stimuler la créativité en agissant comme un « partenaire de co-création », en fournissant des sorties qui pourraient ne pas être entièrement factuelles mais qui contiennent néanmoins des pistes utiles à explorer. Les utilisations créatives de l’hallucination peuvent produire des résultats ou des combinaisons d’idées qui ne viendraient pas à l’esprit de la plupart des gens.
« Les ‘hallucinations’ posent problème lorsque les déclarations générées sont factuellement incorrectes ou contreviennent à des valeurs humaines, sociales ou culturelles générales – dans les scénarios où une personne compte sur le LLM pour être un expert », explique-t-il. « Mais dans les tâches créatives ou artistiques, la capacité à proposer des résultats inattendus peut être précieuse. Un destinataire humain peut être surpris par une réponse à une requête et être ainsi poussé dans une certaine direction de réflexion qui pourrait conduire à une nouvelle connexion d’idées. »
Ha fait valoir que les LLM d’aujourd’hui sont soumis à une norme déraisonnable – après tout, les humains « hallucinent » aussi, lorsque nous nous souvenons mal ou déformons la vérité d’une autre manière. Mais avec les LLM, il pense que nous ressentons une dissonance cognitive car les modèles produisent des résultats qui semblent bons en surface mais contiennent des erreurs lorsqu’on les examine de plus près.
« En un mot, les LLM, tout comme les autres techniques d’IA, sont imparfaits et donc font des erreurs », dit-il. « Traditionnellement, nous acceptons que les systèmes d’IA fassent des erreurs car nous attendons et acceptons les imperfections. Mais c’est plus nuancé lorsque les LLM font des erreurs. »
En effet, la réponse ne réside probablement pas dans le fonctionnement technique des modèles d’IA générative. En ce qui concerne l' »hallucination » aujourd’hui, il semble que la meilleure approche soit de considérer les prédictions des modèles avec un regard sceptique.