Sommaire
Une solution pour évaluer et tester les grands modèles de langage
Il s’avère que lorsque deux experts en intelligence artificielle, qui ont tous deux travaillé chez Meta sur la recherche en intelligence artificielle responsable, se réunissent, il se passe quelque chose de magique. Les fondateurs de Patronus AI se sont réunis en mars dernier pour développer une solution visant à évaluer et tester les grands modèles de langage, en particulier dans les industries réglementées où il y a peu de tolérance pour les erreurs.
Les fondateurs et leur expertise
Rebecca Qian, qui est CTO de l’entreprise, a dirigé la recherche sur le NLP responsable chez Meta AI, tandis que son cofondateur et PDG Anand Kannappan a contribué au développement de cadres de ML explicables chez Meta Reality Labs. Aujourd’hui, leur start-up fait une grande annonce, sortant de l’ombre, rendant leur produit généralement disponible et annonçant également une levée de fonds de 3 millions de dollars.
Un cadre de sécurité et d’analyse pour les modèles de langage
L’entreprise se trouve au bon endroit au bon moment, en construisant un cadre de sécurité et d’analyse sous la forme d’un service géré pour tester les grands modèles de langage afin d’identifier les zones qui pourraient poser problème, en particulier la probabilité d’hallucinations, où le modèle invente une réponse parce qu’il manque de données pour répondre correctement.
Les trois étapes du produit
« Dans notre produit, nous cherchons vraiment à automatiser et à mettre à l’échelle tout le processus d’évaluation et de test des modèles pour alerter les utilisateurs lorsque nous identifions des problèmes », explique Qian à nous.
Elle explique que cela implique trois étapes. « La première consiste à évaluer, où nous aidons réellement les utilisateurs à évaluer les modèles dans des scénarios du monde réel, tels que la finance, en examinant des critères clés tels que les hallucinations », dit-elle. Ensuite, le produit génère automatiquement des cas de test, c’est-à-dire qu’il génère automatiquement des ensembles de tests adversaires et soumet les modèles à des tests de stress. Enfin, il effectue des comparaisons entre les modèles en utilisant différents critères, en fonction des exigences, pour trouver le meilleur modèle pour une tâche donnée. « Nous comparons différents modèles pour aider les utilisateurs à identifier le meilleur modèle pour leur cas d’utilisation spécifique. Par exemple, un modèle peut avoir un taux d’échec plus élevé et des hallucinations par rapport à un autre modèle de base différent », dit-elle.
Concentration sur les industries hautement réglementées
L’entreprise se concentre sur les industries hautement réglementées où les mauvaises réponses pourraient avoir de grandes conséquences. « Nous aidons les entreprises à s’assurer que les grands modèles de langage qu’ils utilisent sont sûrs. Nous détectons les cas où leurs modèles produisent des informations sensibles pour l’entreprise et des sorties inappropriées », explique Kannappan.
Devenir un tiers de confiance
Il dit que l’objectif de la start-up est de devenir un tiers de confiance lorsqu’il s’agit d’évaluer les modèles. « Il est facile pour quelqu’un de dire que son LLM est le meilleur, mais il doit y avoir une perspective impartiale et indépendante. C’est là que nous intervenons. Patronus est le gage de crédibilité », dit-il.
Une équipe en croissance
L’entreprise compte actuellement six employés à temps plein, mais compte tenu de la rapidité avec laquelle le secteur se développe, ils prévoient d’embaucher davantage de personnes dans les mois à venir sans s’engager sur un nombre exact. Qian déclare que la diversité est un pilier clé de l’entreprise. « C’est quelque chose qui nous tient à cœur. Et cela commence au niveau de la direction chez Patronus. À mesure que nous grandissons, nous avons l’intention de continuer à mettre en place des programmes et des initiatives pour nous assurer que nous créons et maintenons un environnement de travail inclusif », dit-elle.
Le financement
La levée de fonds de 3 millions de dollars a été dirigée par Lightspeed Venture Partners, avec la participation de Factorial Capital et d’autres investisseurs du secteur.