Explosion AI cette semaine : Enfin une solution contre le racisme dans les générateurs d’images !

Google suspend la capacité de son chatbot AI à générer des images de personnes suite à des plaintes d’inexactitudes historiques

Google a décidé de suspendre la capacité de son chatbot AI, Gemini, à générer des images de personnes après que certains utilisateurs se soient plaints d’inexactitudes historiques. Par exemple, lorsque Gemini était invité à représenter une « légion romaine », il montrait un groupe de soldats de différentes races de manière caricaturale et anachronique, tandis que pour les « guerriers zoulous », il les représentait tous comme des personnes noires.

Il semblerait que Google, tout comme d’autres fournisseurs d’IA tels qu’OpenAI, ait mis en place un codage maladroit pour tenter de « corriger » les biais de son modèle. En réponse à des demandes telles que « montre-moi des images de femmes seulement » ou « montre-moi des images d’hommes seulement », Gemini refusait en affirmant que de telles images pourraient « contribuer à l’exclusion et à la marginalisation d’autres genres ». Gemini était également réticent à générer des images de personnes identifiées uniquement par leur race, par souci de « réduire les individus à leurs caractéristiques physiques ».

Certains conservateurs ont saisi l’occasion pour dénoncer un agenda « politiquement correct » perpétré par l’élite technologique. Cependant, il n’est pas nécessaire d’utiliser le rasoir d’Occam pour comprendre que la vérité est moins néfaste : Google, ayant déjà été confronté à des biais de ses outils par le passé (par exemple en classifiant des hommes noirs comme des gorilles ou en confondant des armes à feu thermiques avec des armes dans les mains de personnes noires), est désespéré d’éviter que l’histoire se répète en manifestant un monde moins biaisé dans ses modèles de génération d’images, même si cela est erroné.

Dans son livre à succès « White Fragility », l’éducatrice anti-raciste Robin DiAngelo explique comment la suppression de la race – la « cécité à la couleur », pour utiliser une autre expression – contribue aux déséquilibres de pouvoir raciaux systémiques au lieu de les atténuer. En prétendant « ne pas voir la couleur » ou en renforçant l’idée que simplement reconnaître les difficultés des personnes d’autres races suffit à se considérer comme « éveillé », les gens perpétuent des préjudices en évitant toute conversation substantielle sur le sujet, affirme DiAngelo.

Le traitement prudent de Google envers les demandes basées sur la race dans Gemini n’évitait pas réellement le problème, mais tentait plutôt de dissimuler les pires biais du modèle. On pourrait soutenir (et beaucoup l’ont fait) que ces biais ne devraient pas être ignorés ou passés sous silence, mais qu’ils devraient être abordés dans le contexte plus large des données d’entraînement d’où ils proviennent, c’est-à-dire la société sur Internet.

En effet, les ensembles de données utilisés pour former les générateurs d’images contiennent généralement plus de personnes blanches que de personnes noires, et les images de personnes noires dans ces ensembles de données renforcent des stéréotypes négatifs. C’est pourquoi les générateurs d’images sexualisent certaines femmes de couleur, dépeignent des hommes blancs dans des postes d’autorité et favorisent généralement les perspectives occidentales et aisées.

Certains pourraient soutenir qu’il est impossible pour les fournisseurs d’IA de gagner. Qu’ils s’attaquent ou choisissent de ne pas s’attaquer aux biais des modèles, ils seront critiqués. Et c’est vrai. Mais je soutiens que, dans tous les cas, ces modèles manquent d’explications – ils sont présentés de manière à minimiser la façon dont leurs biais se manifestent.

Si les fournisseurs d’IA s’attaquaient directement aux lacunes de leurs modèles, en utilisant un langage humble et transparent, cela irait beaucoup plus loin que les tentatives désordonnées de « corriger » les biais qui sont essentiellement impossibles à corriger. La vérité est que nous avons tous des biais – et nous ne traitons pas les gens de la même manière en conséquence. Et nos modèles que nous construisons non plus. Et il serait bon de le reconnaître.

D’autres histoires sur l’IA de ces derniers jours :

Les femmes dans le domaine de l’IA : Toukiela a lancé une série mettant en avant des femmes remarquables dans le domaine de l’IA. Lisez la liste ici.

Stable Diffusion v3 : Stability AI a annoncé Stable Diffusion 3, la dernière et la plus puissante version du modèle d’IA de génération d’images de l’entreprise, basée sur une nouvelle architecture.

Chrome adopte GenAI : La nouvelle fonctionnalité de Google, alimentée par Gemini, permet aux utilisateurs de modifier du texte existant sur le web ou de générer quelque chose de complètement nouveau.

Plus noir que ChatGPT : L’agence de publicité créative McKinney a développé un jeu-questionnaire, « Are You Blacker than ChatGPT? », pour mettre en lumière les biais de l’IA.

Appels à une législation : Des centaines de personnalités de l’IA ont signé une lettre ouverte cette semaine appelant à une législation contre les deepfakes aux États-Unis.

Une rencontre entre l’IA et Match Group : OpenAI a un nouveau client en la personne de Match Group, propriétaire d’applications comme Hinge, Tinder et Match, dont les employés utiliseront la technologie d’IA d’OpenAI pour accomplir des tâches liées au travail.

Sécurité de DeepMind : DeepMind, la division de recherche en IA de Google, a créé une nouvelle organisation, AI Safety and Alignment, qui regroupe des équipes existantes travaillant sur la sécurité de l’IA, mais aussi de nouvelles cohortes spécialisées de chercheurs et d’ingénieurs en IA.

Modèles ouverts : À peine une semaine après le lancement de la dernière version de ses modèles Gemini, Google a publié Gemma, une nouvelle famille de modèles ouverts et légers.

Groupe de travail de la Chambre : La Chambre des représentants des États-Unis a créé un groupe de travail sur l’IA qui, comme l’a écrit Devin, semble être un moyen de contourner l’absence de décision après des années d’indécision qui ne montrent aucun signe d’aboutissement.

Plus d’apprentissages automatiques

Les modèles d’IA semblent en savoir beaucoup, mais qu’est-ce qu’ils connaissent réellement ? Eh bien, la réponse est rien. Mais si on formule la question légèrement différemment… ils semblent avoir intériorisé certaines « significations » similaires à ce que les humains savent. Bien qu’aucune IA ne comprenne vraiment ce qu’est un chat ou un chien, pourrait-elle avoir une certaine notion de similarité encodée dans ses embeddings de ces deux mots, différente, par exemple, de celle entre chat et bouteille ? Des chercheurs d’Amazon le croient.

Leur recherche a comparé les « trajectoires » de phrases similaires mais distinctes, comme « le chien a aboyé sur le cambrioleur » et « le cambrioleur a fait aboyer le chien », avec celles de phrases grammaticalement similaires mais différentes, comme « un chat dort toute la journée » et « une fille court toute l’après-midi ». Ils ont constaté que celles que les humains trouveraient similaires étaient effectivement traitées en interne comme étant plus similaires malgré des différences grammaticales, et vice versa pour celles grammaticalement similaires. Bon, je trouve que ce paragraphe est un peu confus, mais disons simplement que les significations encodées dans les LLM semblent être plus robustes et sophistiquées que prévu, pas totalement naïves.

Le codage neural s’avère utile dans la vision prothétique, selon des chercheurs suisses de l’EPFL. Les rétines artificielles et autres moyens de remplacer des parties du système visuel humain ont généralement une résolution très limitée en raison des limitations des matrices de microélectrodes. Ainsi, quelle que soit la précision de l’image entrante, elle doit être transmise avec une très faible fidélité. Mais il existe différentes façons de réduire la résolution, et cette équipe a découvert que l’apprentissage automatique le fait très bien.

Bildnachweise : EPFL

« Nous avons constaté que si nous appliquions une approche basée sur l’apprentissage, nous obtenions de meilleurs résultats en termes de codage sensoriel optimisé. Mais ce qui était encore plus surprenant, c’est que lorsque nous utilisions un réseau neuronal non contraint, il apprenait à reproduire certains aspects du traitement rétinien de manière autonome », a déclaré Diego Ghezzi dans un communiqué de presse. Il fait essentiellement de la compression perceptuelle. Ils l’ont testé sur des rétines de souris, donc ce n’est pas seulement théorique.

Une application intéressante de la vision par ordinateur par des chercheurs de Stanford évoque un mystère sur la manière dont les enfants développent leurs compétences en dessin. L’équipe a sollicité et analysé 37 000 dessins d’enfants représentant différents objets et animaux, ainsi que (selon les réponses des enfants) le degré de reconnaissance de chaque dessin. Il est intéressant de noter que ce n’était pas seulement l’inclusion de caractéristiques distinctives comme les oreilles d’un lapin qui rendait les dessins plus reconnaissables par d’autres enfants.

Bildnachweise : Stanford

« Les types de caractéristiques qui rendent les dessins des enfants plus reconnaissables ne semblent pas être déterminés par une seule caractéristique que tous les enfants plus âgés apprennent à inclure dans leurs dessins. C’est quelque chose de beaucoup plus complexe que ces systèmes d’apprentissage automatique sont en train de découvrir », a déclaré la chercheuse principale Judith Fan.

Des chimistes (également à l’EPFL) ont découvert que les LLM étaient étonnamment douées pour les aider dans leur travail après un minimum d’entraînement. Il ne s’agit pas seulement de faire de la chimie directement, mais plutôt d’être affinées sur un corpus de travail que les chimistes individuellement ne peuvent pas connaître dans son intégralité. Par exemple, dans des milliers d’articles, il peut y avoir quelques centaines d’affirmations sur le fait qu’un alliage à haute entropie est monophasé ou pluriphasé (vous n’avez pas besoin de savoir ce que cela signifie – eux le savent). Le système (basé sur GPT-3) peut être formé sur ce type de questions-réponses à choix binaire, et il est bientôt capable d’extrapoler à partir de là.

Ce n’est pas une énorme avancée, juste une preuve supplémentaire que les LLM sont un outil utile dans ce sens. « L’essentiel est que cela soit aussi facile que de faire une recherche documentaire, ce qui fonctionne pour de nombreux problèmes chimiques », a déclaré le chercheur Berend Smit. « Interroger un modèle fondamental pourrait devenir une méthode courante pour amorcer un projet. »

Enfin, une mise en garde des chercheurs de Berkeley (bien que maintenant que je relis le billet, je vois que l’EPFL était également impliqué dans celui-ci). Bravo Lausanne ! Le groupe a constaté que les images trouvées via Google étaient beaucoup plus susceptibles de renforcer les stéréotypes de genre pour certains emplois et mots que le texte mentionnant la même chose. De plus, il y avait beaucoup plus d’hommes présents dans les deux cas.

Non seulement cela, mais lors d’une expérience, ils ont constaté que les personnes qui regardaient des images plutôt que de lire du texte lorsqu’elles recherchaient un rôle associaient ces rôles à un genre de manière plus fiable, même plusieurs jours plus tard. « Il ne s’agit pas seulement de la fréquence des préjugés de genre en ligne », a déclaré le chercheur Douglas Guilbeault. « Une partie de l’histoire ici est qu’il y a quelque chose de très tenace, de très puissant dans la représentation des gens par les images que le texte n’a tout simplement pas. »

Avec des problèmes tels que la polémique sur la diversité du générateur d’images de Google, il est facile de perdre de vue le fait établi et fréquemment vérifié que la source de données de nombreux modèles d’IA montre de graves biais, et que ces biais ont un véritable impact sur les personnes.

Teilen Sie Ihre Meinung mit

Diese Seite verwendet Akismet, um Spam zu reduzieren. Erfahre, wie deine Kommentardaten verarbeitet werden..