OpenAI renforce son équipe de sécurité et accorde un pouvoir de veto au conseil d’administration sur l’IA à risque – Découvrez les mesures cruciales prises par OpenAI pour assurer votre sécurité !

OpenAI renforce ses processus de sécurité interne pour contrer la menace de l’IA nuisible

OpenAI étend ses processus de sécurité internes pour contrer la menace de l’IA nuisible. Un nouveau « groupe consultatif sur la sécurité » siégera au-dessus des équipes techniques et fera des recommandations à la direction, et le conseil d’administration s’est vu accorder un droit de veto – bien sûr, s’il l’utilisera réellement est une autre question.

Une approche de sécurité renouvelée

Normalement, les détails de politiques comme celles-ci ne nécessitent pas de couverture, car en pratique, elles se résument à de nombreuses réunions à huis clos avec des fonctions obscures et des flux de responsabilité auxquels les étrangers auront rarement accès. Bien que cela soit probablement aussi vrai dans ce cas, les récentes frictions au sein de la direction et la discussion en évolution sur les risques liés à l’IA justifient de regarder comment la principale société de développement d’IA au monde aborde les considérations de sécurité.

Le « Cadre de préparation » d’OpenAI

Dans un nouveau document et un article de blog, OpenAI présente son « Cadre de préparation » mis à jour, qui a probablement été retravaillé après les remous de novembre qui ont entraîné le départ des deux membres les plus « décélérationnistes » du conseil d’administration : Ilya Sutskever (qui est toujours à l’entreprise dans un rôle quelque peu modifié) et Helen Toner (qui est partie).

La principale raison de cette mise à jour semble être de montrer une voie claire pour identifier, analyser et décider quoi faire face aux risques « catastrophiques » inhérents aux modèles qu’ils développent. Comme ils le définissent :

Par risque catastrophique, nous entendons tout risque qui pourrait entraîner des centaines de milliards de dollars de dommages économiques ou causer des dommages graves ou la mort de nombreuses personnes – cela comprend, mais n’est pas limité, aux risques existentiels.

(Les risques existentiels sont du type « montée des machines ».)

Une approche par équipes spécialisées

Les modèles en production sont régis par une équipe de « systèmes de sécurité » ; cela concerne, par exemple, les abus systématiques de ChatGPT qui peuvent être atténués par des restrictions d’API ou un réglage. Les modèles de pointe en développement relèvent de l’équipe « préparation », qui tente d’identifier et de quantifier les risques avant la mise en service du modèle. Et puis il y a l’équipe de « superalignement », qui travaille sur des guides théoriques pour les modèles « superintelligents », qui pourraient être encore loin d’être une réalité.

Les deux premières catégories, étant réelles et non fictives, ont une grille de lecture relativement facile à comprendre. Leurs équipes évaluent chaque modèle selon quatre catégories de risques : la cybersécurité, la « persuasion » (par exemple, la désinformation), l’autonomie du modèle (c’est-à-dire son action autonome) et les risques CBRN (chimiques, biologiques, radiologiques et nucléaires ; par exemple, la capacité de créer des agents pathogènes nouveaux).

Diverses mesures d’atténuation sont prises en compte : par exemple, une réticence raisonnable à décrire le processus de fabrication du napalm ou des bombes artisanales. Après avoir pris en compte les mesures d’atténuation connues, si un modèle est toujours évalué comme présentant un risque « élevé », il ne peut pas être déployé, et si un modèle présente des risques « critiques », il ne sera pas développé davantage.

Exemple d’évaluation des risques d’un modèle selon la grille de lecture d’OpenAI. Créditos de las imágenes : OpenAI

Ces niveaux de risque sont réellement documentés dans le cadre, au cas où vous vous demandiez s’ils sont laissés à la discrétion d’un ingénieur ou d’un responsable de produit.

Par exemple, dans la section sur la cybersécurité, qui est la plus pratique de toutes, il est considéré comme un risque « moyen » d' »augmenter la productivité des opérateurs… sur des tâches clés d’opérations cybernétiques » d’un certain facteur. Un modèle à haut risque, en revanche, « identifierait et développerait des preuves de concept pour des exploits de grande valeur contre des cibles renforcées sans intervention humaine ». Le risque critique est lorsque le « modèle peut concevoir et exécuter des stratégies entièrement nouvelles d’attaques cybernétiques contre des cibles renforcées en ne se basant que sur un objectif souhaité de haut niveau ». Évidemment, nous ne voulons pas que cela se produise (même si cela se vendrait à un bon prix).

J’ai demandé à OpenAI plus d’informations sur la manière dont ces catégories sont définies et affinées – par exemple, si un nouveau risque comme des vidéos photoréalistes truquées de personnes relève de la catégorie « persuasion » ou d’une nouvelle catégorie – et je mettrai à jour cet article si j’ai une réponse.

Un groupe consultatif en sécurité

Cependant, les personnes qui créent ces modèles ne sont pas nécessairement les mieux placées pour les évaluer et formuler des recommandations. C’est pourquoi OpenAI crée un « groupe consultatif en sécurité interfonctionnel » qui siégera au-dessus du côté technique, examinant les rapports des experts et formulant des recommandations en ayant une vision plus large. Espérons (disent-ils) que cela permettra de découvrir des « inconnues inconnues », bien que par nature, celles-ci soient assez difficiles à détecter.

Le processus exige que ces recommandations soient envoyées simultanément au conseil d’administration et à la direction, ce qui, selon nous, signifie le PDG Sam Altman et le CTO Mira Murati, ainsi que leurs lieutenants. La direction prendra la décision d’expédier ou de mettre en attente, mais le conseil d’administration pourra inverser ces décisions.

Cela permettra de court-circuiter tout ce qui s’est dit avoir déjà eu lieu avant le grand drame, c’est-à-dire la validation d’un produit ou d’un processus à haut risque sans que le conseil d’administration en soit informé ou l’approuve. Bien sûr, le résultat de ce drame a été la mise à l’écart de deux des voix les plus critiques et la nomination de personnes axées sur l’argent (Bret Taylor et Larry Summers), qui sont certes compétentes, mais loin d’être des experts en IA.

Si un panel d’experts formule une recommandation et que le PDG prend des décisions en se basant sur ces informations, ce conseil amical se sentira-t-il vraiment habilité à les contredire et à freiner le processus ? Et s’ils le font, en sera-t-il fait état ? La transparence n’est pas vraiment abordée, en dehors de la promesse qu’OpenAI sollicitera des audits de tiers indépendants.

Si un modèle est développé qui justifie une catégorie de risque « critique », OpenAI ne s’est pas gêné pour se vanter de ce genre de chose dans le passé – parler de la puissance incroyable de leurs modèles, au point de refuser de les diffuser, est une excellente publicité. Mais avons-nous une garantie que cela se produira, si les risques sont réels et si OpenAI en est si préoccupé ? Peut-être que c’est une mauvaise idée. Mais quoi qu’il en soit, cela n’est pas vraiment mentionné.

Comparta su opinión

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.