Découvrez Imagen 2 de Google : génération de texte et de logos révolutionnaire maintenant disponible !

Contents

Google rend Imagen 2 plus accessible aux clients de Google Cloud

Google rend la deuxième génération d’Imagen, son modèle d’IA capable de créer et de modifier des images à partir d’une instruction textuelle, plus largement disponible – du moins pour les clients de Google Cloud utilisant Vertex AI et qui ont été approuvés pour y accéder.

Cependant, la société ne divulgue pas les données utilisées pour former le nouveau modèle, ni ne propose de moyen aux créateurs qui ont peut-être contribué involontairement à l’ensemble de données de se désinscrire ou de demander une compensation.

Imagen 2 : un modèle amélioré avec de nouvelles fonctionnalités

Nommé Imagen 2, le modèle amélioré de Google – qui a été discrètement lancé en avant-première lors de la conférence I/O du géant de la technologie en mai – a été développé à l’aide de la technologie de Google DeepMind, le laboratoire phare d’IA de Google. Comparé à la première génération d’Imagen, il est « considérablement » amélioré en termes de qualité d’image, affirme Google (la société a étrangement refusé de partager des exemples d’images avant ce matin), et introduit de nouvelles fonctionnalités, notamment la capacité de rendre du texte et des logos.

Grâce à « des techniques d’entraînement et de modélisation novatrices », Imagen 2 peut également comprendre des instructions descriptives plus détaillées et fournir des réponses détaillées aux questions sur les éléments d’une image. Ces techniques améliorent également la compréhension multilingue d’Imagen 2, permettant au modèle de traduire une instruction dans une langue vers une sortie (par exemple, un logo) dans une autre langue.

Des capacités de génération de texte et de logos

La génération de texte et de logos place Imagen au même niveau que d’autres modèles leaders de génération d’images, tels que DALL-E 3 d’OpenAI et le récemment lancé Titan Image Generator d’Amazon. À deux points de différenciation possibles, Imagen 2 peut rendre du texte dans plusieurs langues – notamment le chinois, l’hindi, le japonais, le coréen, le portugais, l’anglais et l’espagnol, avec plus à venir en 2024 – et superposer des logos sur des images existantes.

« Imagen 2 peut générer… des emblèmes, des lettres et des logos abstraits… [et] a la capacité de superposer ces logos sur des produits, des vêtements, des cartes de visite et d’autres surfaces », explique Vishy Tirumalasetty, responsable des produits médiatiques génératifs chez Google, dans un article de blog fourni à nous avant l’annonce d’aujourd’hui.

Une protection contre les revendications de droits d’auteur

Imagen 2 tire parti de SynthID, une approche développée par DeepMind, pour appliquer des filigranes invisibles aux images créées par celui-ci. Bien sûr, la détection de ces filigranes – que Google prétend être résistants aux modifications d’image, y compris la compression, les filtres et les ajustements de couleur – nécessite un outil fourni par Google qui n’est pas disponible pour les tiers. Mais alors que les décideurs expriment leur inquiétude face au volume croissant de désinformation générée par l’IA sur le web, cela dissipera peut-être certaines craintes.

Un manque de transparence concernant les données d’entraînement

Google n’a pas révélé les données utilisées pour former Imagen 2, ce qui, bien que décevant, n’est pas vraiment surprenant. Il s’agit d’une question juridique ouverte de savoir si les fournisseurs d’IA générative comme Google peuvent former un modèle sur des données disponibles publiquement, même protégées par des droits d’auteur, puis commercialiser ce modèle.

Des poursuites pertinentes sont en cours devant les tribunaux, les fournisseurs faisant valoir qu’ils sont protégés par la doctrine de l’utilisation équitable. Mais il faudra un certain temps avant que la poussière retombe.

Les préoccupations concernant la propriété intellectuelle

En attendant, Google joue la sécurité en gardant le silence sur la question – une inversion de la stratégie adoptée avec la première génération d’Imagen, où il a révélé avoir utilisé une version de l’ensemble de données public LAION pour former le modèle. On sait que LAION contient du contenu problématique, notamment des images médicales privées, des œuvres protégées par des droits d’auteur et des images pornographiques de célébrités retouchées par logiciel – ce qui évidemment n’est pas la meilleure image pour Google.

Absence d’options d’opt-out et de compensation pour les créateurs

Certaines entreprises développant des générateurs d’images alimentés par l’IA, comme Stability AI et – depuis quelques mois – OpenAI, permettent aux créateurs de se désinscrire des ensembles de données d’entraînement s’ils le souhaitent. D’autres, dont Adobe et Getty Images, mettent en place des régimes de compensation pour les créateurs – même si ceux-ci ne sont pas toujours bien rémunérés ou transparents.

Google – et, pour être juste, plusieurs de ses concurrents, dont Amazon – n’offre pas un tel mécanisme d’opt-out ou une compensation pour les créateurs. Cela ne changera pas de sitôt, semble-t-il.

Une politique d’indemnisation pour protéger les clients contre les revendications de droits d’auteur

À la place, Google propose une politique d’indemnisation qui protège les clients éligibles de Vertex AI contre les revendications de droits d’auteur liées à l’utilisation des données d’entraînement de Google et aux sorties d’Imagen 2.

Les préoccupations concernant la régurgitation

La régurgitation, c’est-à-dire lorsque le modèle générateur recrache une copie exacte d’un exemple d’entraînement, est légitimement une préoccupation pour les clients et les développeurs d’entreprises. Une étude universitaire a montré que la première génération d’Imagen n’était pas immunisée contre ce phénomène, produisant des photos identifiables de personnes réelles, des œuvres protégées par des droits d’auteur et plus encore lorsqu’elle était sollicitée de manière spécifique.

Les inquiétudes concernant la protection de la propriété intellectuelle

C’est une préoccupation que Google espère résoudre avec sa politique, qui est nouvellement élargie. (Les termes d’indemnisation de Google ne couvraient pas auparavant les sorties d’Imagen.) Quant aux préoccupations des créateurs, eh bien… ils n’ont pas de chance cette fois-ci.