Inhaltsverzeichnis
Pénurie de GPU : Amazon dévoile de nouvelles puces pour l’IA
La demande croissante pour l’intelligence artificielle générative, souvent entraînée et exécutée sur des GPU, a créé une pénurie de ces derniers. Les meilleures puces de Nvidia sont apparemment en rupture de stock jusqu’en 2024. Le PDG de TSMC, fabricant de puces, a récemment été moins optimiste, suggérant que la pénurie de GPU de Nvidia, ainsi que celle de ses concurrents, pourrait se prolonger jusqu’en 2025.
Des puces personnalisées pour l’IA
Pour réduire leur dépendance aux GPU, les grandes entreprises technologiques développent – et dans certains cas, rendent disponibles pour les clients – des puces personnalisées adaptées à la création, à l’itération et à la mise en production de modèles d’IA. Amazon fait partie de ces entreprises et a dévoilé aujourd’hui, lors de sa conférence annuelle AWS re:Invent, la dernière génération de ses puces pour l’entraînement et l’inférence des modèles d’IA.
AWS Trainium2 : des performances améliorées
La première puce, AWS Trainium2, est conçue pour offrir des performances jusqu’à 4 fois supérieures et une efficacité énergétique jusqu’à 2 fois meilleure que la première génération de Trainium, dévoilée en décembre 2020, selon Amazon. Disponible dans les instances EC Trn2 en clusters de 16 puces dans le cloud AWS, Tranium2 peut atteindre une échelle de 100 000 puces dans le produit EC2 UltraCluster d’AWS.
Amazon affirme que 100 000 puces Trainium offrent une puissance de calcul de 65 exaflops, soit 650 téraflops par puce. (« Exaflops » et « teraflops » mesurent le nombre d’opérations de calcul par seconde qu’une puce peut effectuer.) Il y a probablement des facteurs complexes rendant ce calcul approximatif, mais en supposant qu’une seule puce Tranium2 puisse délivrer environ 200 téraflops de performances, cela la place bien au-dessus de la capacité des puces d’entraînement d’IA personnalisées de Google vers 2017.
Un cluster de 100 000 puces Trainium peut entraîner un modèle de langage IA de 300 milliards de paramètres en semaines au lieu de mois, affirme Amazon. (« Les paramètres » sont les parties d’un modèle apprises à partir des données d’entraînement et définissent essentiellement les compétences du modèle sur un problème, comme la génération de texte ou de code.) Cela représente environ 1,75 fois la taille du GPT-3 d’OpenAI, prédécesseur du générateur de texte GPT-4.
« Le silicium est à la base de chaque charge de travail client, ce qui en fait un domaine d’innovation critique pour AWS », a déclaré David Brown, vice-président du calcul et des réseaux d’AWS, dans un communiqué de presse. « Avec l’engouement croissant pour l’IA générative, Tranium2 aidera les clients à former leurs modèles d’apprentissage automatique plus rapidement, à moindre coût et avec une meilleure efficacité énergétique. »
Amazon n’a pas précisé quand les instances Trainium2 seront disponibles pour les clients d’AWS, mais a annoncé qu’elles le seraient « l’année prochaine ». Nous resterons attentifs à toute information supplémentaire à ce sujet.
Graviton4 : une puce Arm pour l’inférence
La deuxième puce annoncée par Amazon ce matin est le Graviton4 basé sur Arm, destiné à l’inférence. Il s’agit de la quatrième génération de la famille de puces Graviton d’Amazon (comme l’indique le « 4 » ajouté à « Graviton »), et elle se distingue de l’autre puce d’inférence d’Amazon, Inferentia.
Amazon affirme que le Graviton4 offre jusqu’à 30% de meilleures performances de calcul, 50% de cœurs en plus et 75% de bande passante mémoire en plus qu’un processeur Graviton3 de génération précédente (mais pas le plus récent Graviton3E), fonctionnant sur Amazon EC2. Par rapport au Graviton3, toutes les interfaces matérielles physiques du Graviton4 sont « cryptées », ce qui permet de mieux sécuriser les charges de travail et les données d’entraînement de l’IA pour les clients ayant des exigences accrues en matière de chiffrement.
« Graviton4 marque la quatrième génération que nous avons livrée en seulement cinq ans et c’est la puce la plus puissante et la plus économe en énergie que nous ayons jamais construite pour un large éventail de charges de travail », a ajouté David Brown dans une déclaration. « En nous concentrant sur les conceptions de puces adaptées aux charges de travail réelles qui sont importantes pour nos clients, nous sommes en mesure de fournir l’infrastructure cloud la plus avancée. »
Le Graviton4 sera disponible dans les instances Amazon EC2 R8g, qui sont disponibles en prévisualisation dès aujourd’hui et seront proposées en général dans les prochains mois.