Découvrez cet incroyable assistant vocal ouvert, créé par une association allemande, accessible à tous !

Sommaire

Un nouvel assistant vocal open source en développement

De nombreuses tentatives ont été faites pour créer des assistants vocaux open source alimentés par l’IA (voir Rhasspy, Mycroft et Jasper, pour n’en citer que quelques-uns) – tous établis dans le but de créer des expériences hors ligne respectueuses de la vie privée sans compromis sur la fonctionnalité. Mais le développement s’est révélé extrêmement lent. En plus des défis habituels liés aux projets open source, la programmation d’un assistant vocal est difficile. Des technologies comme Google Assistant, Siri et Alexa ont derrière elles des années, voire des décennies, de recherche et développement – ainsi qu’une infrastructure énorme.

L’initiative BUD-E

Cependant, cela n’a pas découragé les personnes de Large-scale Artificial Intelligence Open Network (LAION), l’organisation allemande à but non lucratif chargée de la maintenance de certaines des bases de données d’entraînement à l’IA les plus populaires au monde. Ce mois-ci, LAION a annoncé une nouvelle initiative, BUD-E, qui vise à construire un assistant vocal entièrement ouvert capable de fonctionner sur du matériel grand public.

Une architecture extensible

Pourquoi lancer un tout nouveau projet d’assistant vocal alors qu’il en existe déjà de nombreux autres à différents stades d’abandon ? Wieland Brendel, membre de l’Institut Ellis et contributeur de BUD-E, estime qu’il n’existe pas d’assistant ouvert doté d’une architecture suffisamment extensible pour tirer pleinement parti des technologies émergentes de l’IA générative, en particulier des modèles de langage volumineux (LLM) tels que ChatGPT d’OpenAI.

Brendel a ajouté que LAION souhaite également garantir que chaque composant de BUD-E puisse éventuellement être intégré à des applications et services sans licence, même à des fins commerciales – ce qui n’est pas nécessairement le cas pour d’autres initiatives d’assistants ouverts.

Collaboration et roadmap ambitieuse

En collaboration avec l’Institut Ellis à Tübingen, le cabinet de conseil technologique Collabora et le Tübingen AI Center, BUD-E (abrégé de Buddy for Understanding and Digital Empathy) a une feuille de route ambitieuse. Dans un article de blog, l’équipe de LAION expose ce qu’elle espère réaliser dans les prochains mois, notamment l’intégration d’une « intelligence émotionnelle » dans BUD-E et la capacité à gérer des conversations impliquant plusieurs interlocuteurs simultanément.

Un modèle préliminaire disponible

BUD-E est déjà opérationnel – vous pouvez le télécharger et l’installer dès aujourd’hui depuis GitHub sur Ubuntu ou Windows PC (macOS est à venir) – mais il est clairement encore à un stade préliminaire. LAION a assemblé plusieurs modèles ouverts pour créer un modèle MVP, dont le modèle Phi-2 LLM de Microsoft, le système de synthèse vocale StyleTTS2 de Columbia et le système de reconnaissance vocale FastConformer de Nvidia. Par conséquent, l’expérience n’est pas encore optimisée. Pour que BUD-E puisse répondre aux commandes en environ 500 millisecondes – dans la plage des assistants vocaux commerciaux tels que Google Assistant et Alexa – il faut une carte graphique puissante comme la Nvidia RTX 4090.

Collabora travaille bénévolement pour adapter ses modèles de reconnaissance vocale et de synthèse vocale open source, WhisperLive et WhisperSpeech, pour BUD-E.

Objectifs futurs

Dans un avenir proche, LAION prévoit de rendre les exigences matérielles de BUD-E moins contraignantes et de réduire la latence de l’assistant. Un objectif à plus long terme est de constituer un ensemble de données de dialogues pour affiner BUD-E, ainsi que de développer un mécanisme de mémoire permettant à BUD-E de stocker des informations provenant de conversations précédentes et un pipeline de traitement vocal capable de suivre plusieurs personnes parlant en même temps.

Accessibilité et idées innovantes

J’ai demandé à l’équipe si l’accessibilité était une priorité, étant donné que les systèmes de reconnaissance vocale n’ont historiquement pas bien fonctionné avec les langues autres que l’anglais et les accents autres que transatlantiques. Une étude de Stanford a révélé que les systèmes de reconnaissance vocale d’Amazon, IBM, Google, Microsoft et Apple avaient presque deux fois plus de chances de mal comprendre les locuteurs noirs par rapport aux locuteurs blancs du même âge et du même sexe.

Brendel a déclaré que LAION ne négligeait pas l’accessibilité, mais que ce n’était pas une priorité immédiate pour BUD-E.

Pour conclure, LAION a des idées assez innovantes pour BUD-E, allant d’un avatar animé à la personnification de l’assistant, en passant par la prise en charge de l’analyse des visages des utilisateurs via des webcams pour prendre en compte leur état émotionnel. L’éthique de cette dernière fonctionnalité – l’analyse faciale – est discutable, il est donc essentiel que LAION reste attaché à la sécurité.

LAION a réalisé des travaux précédents qui n’étaient pas irréprochables sur le plan éthique et poursuit actuellement un projet séparé assez controversé sur la détection des émotions. Mais peut-être que BUD-E sera différent ; il faudra attendre pour le savoir.