Inhaltsverzeichnis
Un projet pour rendre l’IA empathique accessible à tous
En 2019, Amazon a amélioré son assistant Alexa en lui permettant de détecter quand un client était susceptible d’être frustré et de répondre avec plus de sympathie en conséquence. Par exemple, si un client demandait à Alexa de jouer une chanson et qu’elle en mettait une autre en file d’attente, puis que le client disait « Non, Alexa » d’un ton contrarié, Alexa pouvait s’excuser et demander une clarification.
Maintenant, le groupe derrière l’un des ensembles de données utilisés pour former le modèle texte-image Stable Diffusion souhaite apporter des capacités similaires de détection des émotions à tous les développeurs, et ce gratuitement.
Cette semaine, LAION, une organisation à but non lucratif qui construit des ensembles de données d’images et de textes pour former l’IA générative, y compris Stable Diffusion, a annoncé le projet Open Empathic. Open Empathic vise à « équiper les systèmes d’IA open source d’empathie et d’intelligence émotionnelle », selon les mots du groupe.
« L’équipe de LAION, composée de professionnels de la santé, de l’éducation et de la recherche en apprentissage automatique, a constaté un manque dans la communauté open source : l’IA émotionnelle était largement négligée », a déclaré Christoph Schuhmann, co-fondateur de LAION, dans un e-mail à Toukiela. « Tout comme nos préoccupations concernant les monopoles d’IA non transparents qui ont conduit à la création de LAION, nous avons ressenti une urgence similaire ici. »
A travers Open Empathic, LAION recrute des volontaires pour soumettre des extraits audio à une base de données pouvant être utilisée pour créer des IA, y compris des chatbots et des modèles de synthèse vocale, qui « comprennent » les émotions humaines.
« Avec Open Empathic, notre objectif est de créer une IA qui va au-delà de la simple compréhension des mots », ajoute Schuhmann. « Nous visons à saisir les nuances des expressions et des variations de ton, rendant les interactions entre l’homme et l’IA plus authentiques et empathiques. »
LAION, acronyme de « Large-scale Artificial Intelligence Open Network », a été fondé au début de l’année 2021 par Schuhmann, qui est enseignant dans un lycée allemand, et plusieurs membres d’un serveur Discord pour les passionnés d’IA. Financé par des dons et des subventions de recherche publique, notamment de la start-up d’IA Hugging Face et de Stability AI, le fournisseur derrière Stable Diffusion, la mission déclarée de LAION est de démocratiser la recherche et le développement de l’IA, en commençant par les données d’entraînement.
« Nous sommes animés par une mission claire : exploiter le pouvoir de l’IA de manière à bénéficier véritablement à la société », déclare Kari Noriy, contributeur open source à LAION et doctorant à l’université de Bournemouth, dans un e-mail à Toukiela. « Nous sommes passionnés par la transparence et nous pensons que la meilleure façon de façonner l’IA est de le faire ouvertement. »
C’est ainsi qu’est né Open Empathic.
Collecte des données et détection des émotions
Pour la phase initiale du projet, LAION a créé un site web qui demande aux volontaires d’annoter des extraits YouTube – certains pré-sélectionnés par l’équipe de LAION, d’autres par les volontaires – d’une personne en train de parler. Pour chaque extrait, les volontaires peuvent remplir une liste détaillée de champs, comprenant une transcription de l’extrait, une description audio et vidéo, l’âge, le genre, l’accent (par exemple « anglais britannique »), le niveau d’excitation et le niveau de valence (agréable ou désagréable) de la personne dans l’extrait.
Les autres champs du formulaire concernent la qualité audio de l’extrait et la présence (ou l’absence) de bruits de fond forts. Mais l’accent est principalement mis sur les émotions de la personne, du moins les émotions que les volontaires perçoivent.
À partir d’une série de menus déroulants, les volontaires peuvent sélectionner des émotions individuelles ou multiples, allant de « joyeux » et « dynamique » à « réfléchi » et « captivant ». Selon Noriy, l’idée était de solliciter des annotations « riches » et « émotives » tout en capturant des expressions dans différentes langues et cultures.
« Nous nous concentrons sur la formation de modèles d’IA capables de comprendre une grande variété de langues et de véritablement saisir les différentes cultures », explique Noriy. « Nous travaillons à la création de modèles qui comprennent les langues et les cultures en utilisant des vidéos montrant de vraies émotions et expressions. »
Une fois que les volontaires soumettent un extrait à la base de données de LAION, ils peuvent recommencer le processus – il n’y a pas de limite au nombre d’extraits qu’un volontaire peut annoter. LAION espère recueillir environ 10 000 échantillons au cours des prochains mois, et entre 100 000 et 1 million d’ici l’année prochaine.
« Nous avons des membres de la communauté passionnés qui contribuent volontairement à nos ensembles de données lors de leur temps libre », explique Noriy. « Leur motivation est le rêve partagé de créer une IA empathique et émotionnellement intelligente en open source, accessible à tous. »
Les défis de la détection des émotions
Outre les tentatives d’Amazon avec Alexa, les start-ups et les géants de la technologie ont exploré le développement d’IA capable de détecter les émotions, dans des domaines allant de la formation commerciale à la prévention des accidents liés à la somnolence.
En 2016, Apple a acquis Emotient, une entreprise de San Diego travaillant sur des algorithmes d’IA analysant les expressions faciales. Rachetée par Smart Eye, basée en Suède, en mai dernier, Affectiva – une spin-off du MIT – prétendait autrefois que sa technologie pouvait détecter la colère ou la frustration dans la parole en 1,2 seconde. Et Nuance, une plateforme de reconnaissance vocale rachetée par Microsoft en avril 2021, a présenté un produit pour les voitures qui analyse les émotions des conducteurs à partir de leurs indices faciaux.
D’autres acteurs dans le domaine de la détection et de la reconnaissance des émotions incluent Hume, HireVue et Realeyes, dont la technologie est utilisée pour évaluer la réaction de certains segments de spectateurs à certaines publicités. Certaines entreprises utilisent également une technologie de détection des émotions pour évaluer les candidats potentiels en fonction de leur empathie et de leur intelligence émotionnelle. Les écoles l’utilisent pour surveiller l’engagement des élèves en classe, que ce soit sur place ou à distance. Et les gouvernements l’utilisent pour identifier les « personnes dangereuses » et l’ont testée aux points de contrôle frontaliers aux États-Unis, en Hongrie, en Lettonie et en Grèce.
Pour sa part, l’équipe de LAION imagine des applications utiles et sans problème de cette technologie dans les domaines de la robotique, de la psychologie, de la formation professionnelle, de l’éducation et même des jeux. Schuhmann décrit des robots offrant un soutien et une compagnie, des assistants virtuels qui détectent quand quelqu’un se sent seul ou anxieux, et des outils d’aide au diagnostic des troubles psychologiques.
Il s’agit d’une utopie technologique. Le problème, c’est que la plupart des détections d’émotions reposent sur des bases scientifiques incertaines.
Il n’existe que peu, voire aucun, marqueur universel des émotions, remettant ainsi en question la précision des IA de détection des émotions. La plupart des systèmes de détection des émotions ont été construits sur le travail du psychologue Paul Ekman, publié dans les années 70. Mais des recherches ultérieures, y compris celles d’Ekman lui-même, soutiennent l’idée de bon sens selon laquelle il existe de grandes différences dans la façon dont les personnes de différents milieux expriment ce qu’elles ressentent.
Par exemple, l’expression supposément universelle de la peur est un stéréotype pour une menace ou de la colère en Malaisie. Dans l’une de ses œuvres ultérieures, Ekman a suggéré que les étudiants américains et japonais réagissent différemment aux films violents, les étudiants japonais adoptant « un tout autre ensemble d’expressions » si quelqu’un d’autre est dans la pièce, en particulier une figure d’autorité.
Les voix, elles aussi, présentent un large éventail de caractéristiques, y compris celles des personnes handicapées, celles qui ont des troubles comme l’autisme et celles qui parlent d’autres langues et dialectes tels que l’anglais vernaculaire afro-américain. Un locuteur natif de français qui répond à un questionnaire en anglais peut marquer une pause ou prononcer un mot avec une certaine incertitude, ce qui peut être mal interprété par quelqu’un de peu familier comme un marqueur émotionnel.
En effet, une grande partie du problème avec les IA de détection des émotions est le biais – implicite et explicite – apporté par les annotateurs dont les contributions sont utilisées pour entraîner les modèles de détection des émotions.
Dans une étude réalisée en 2019, par exemple, des scientifiques ont constaté que les annotateurs avaient tendance à annoter les phrases en anglais vernaculaire afro-américain comme étant plus toxiques que leurs équivalents en anglais américain général. L’orientation sexuelle et l’identité de genre peuvent également influencer fortement les mots et les phrases qu’un annotateur perçoit comme toxiques, de même que les préjugés manifestes. Plusieurs ensembles de données d’images open source couramment utilisés ont été trouvés pour contenir des annotations racistes, sexistes et offensantes.
Les effets indirects peuvent être assez dramatiques.
Retorio, une plateforme d’embauche basée sur l’IA, a réagi différemment au même candidat avec des tenues différentes, comme des lunettes et des foulards. Dans une étude du MIT réalisée en 2020, les chercheurs ont montré que les algorithmes d’analyse faciale pouvaient développer un biais en faveur de certaines expressions faciales, comme le sourire, réduisant ainsi leur précision. Des travaux plus récents suggèrent que les outils d’analyse émotionnelle populaires ont tendance à attribuer des émotions plus négatives aux visages des hommes noirs qu’aux visages blancs.
Respecter le processus
Comment l’équipe de LAION compte-t-elle lutter contre ces biais, en veillant par exemple à ce que les personnes blanches ne soient pas plus nombreuses que les personnes noires dans l’ensemble de données, à ce que les personnes non binaires ne soient pas assignées au mauvais genre, et à ce que les personnes atteintes de troubles de l’humeur ne soient pas étiquetées avec des émotions qu’elles n’ont pas l’intention d’exprimer ?
Ce n’est pas tout à fait clair.
Schuhmann affirme que le processus de soumission des données d’entraînement pour Open Empathic n’est pas une « porte ouverte » et que LAION a mis en place des systèmes pour « garantir l’intégrité des contributions ».
« Nous pouvons valider l’intention d’un utilisateur et vérifier systématiquement la qualité des annotations », ajoute-t-il.
Mais les ensembles de données précédents de LAION n’ont pas été exactement parfaits.
Des analyses de LAION ~400M, un ensemble de données d’images de LAION, que le groupe a tenté de créer avec des outils automatisés, ont révélé des photos représentant des agressions sexuelles, des viols, des symboles de haine et de la violence graphique. De plus, LAION ~400M est également truffé de biais, renvoyant par exemple des images d’hommes mais pas de femmes pour des mots comme « PDG » et des images d’hommes du Moyen-Orient pour « terroriste ».
Schuhmann fait confiance à la communauté pour servir de contrôle cette fois-ci.
« Nous croyons en la puissance des scientifiques amateurs et des passionnés du monde entier qui se réunissent et contribuent à nos ensembles de données », dit-il. « Bien que nous soyons ouverts et collaboratifs, nous accordons la priorité à la qualité et à l’authenticité de nos données. »
En ce qui concerne l’utilisation de l’IA formée sur l’ensemble de données Open Empathic, biaisée ou non, LAION s’engage à respecter sa philosophie open source, même si cela signifie que l’IA pourrait être utilisée de manière abusive.
« Utiliser l’IA pour comprendre les émotions est une entreprise puissante, mais elle n’est pas sans défis », déclare Robert Kaczmarczyk, co-fondateur de LAION et médecin à l’Université technique de Munich, par e-mail. « Comme tout outil, elle peut être utilisée à la fois pour le bien et pour le mal. Imaginez si seul un petit groupe avait accès à des technologies avancées, tandis que la plupart du public était dans l’ignorance. Ce déséquilibre pourrait conduire à une mauvaise utilisation ou même à une manipulation par les quelques personnes qui contrôlent cette technologie. »
En ce qui concerne l’IA, les approches de type « laisser-faire » reviennent parfois hanter les créateurs des modèles, comme en témoigne l’utilisation de Stable Diffusion pour créer du matériel pédopornographique et des deepfakes non consentis.
Certains défenseurs de la vie privée et des droits de l’homme, dont European Digital Rights et Access Now, ont demandé une interdiction totale de la reconnaissance des émotions. La loi de l’UE sur l’IA, récemment promulguée, interdit l’utilisation de la reconnaissance des émotions dans la police, la gestion des frontières, les lieux de travail et les écoles. Et certaines entreprises ont volontairement retiré leur IA de détection des émotions, comme Microsoft, face aux critiques du public.
LAION semble à l’aise avec le niveau de risque en jeu et a confiance dans le processus de développement ouvert.
« Nous invitons les chercheurs à examiner de près, à proposer des modifications et à repérer les problèmes », déclare Kaczmarczyk. « Et tout comme Wikipédia prospère grâce aux contributions de la communauté, Open Empathic est alimenté par l’implication de la communauté, en veillant à ce qu’il soit transparent et sûr. »
Transparent ? Certainement. Sûr ? Le temps le dira.