Nvidia : des serveurs surchauffés, un coup dur pour l’IA

Le 19/11/2024

Nvidia, leader mondial des solutions pour l'intelligence artificielle (IA), fait face à une problématique technique majeure. Ses nouvelles puces Blackwell, intégrées dans des serveurs de pointe, sont confrontées à des problèmes de surchauffe, menaçant la stabilité de ses systèmes et la confiance de ses clients. Quels sont les enjeux de cette crise pour Nvidia et l’industrie technologique.

Nvidia
© Nvidia - Capture by TechPaf

Les puces Blackwell : des performances remarquables, mais des défis thermiques

L'architecture Blackwell représente une avancée majeure pour Nvidia. Les serveurs utilisant les puces B200 et CPU Grace atteignent des performances jusqu’à 18 fois supérieures à celles des CPU traditionnels pour certaines tâches spécifiques comme le traitement de données massives ou l'IA générative. Cependant, la version refroidie par air de ces serveurs, notamment le modèle MGX GB200 NVL2. Montre des limites inquiétantes en termes de gestion thermique.

Les configurations compactes, notamment au format 2U, peinent à dissiper efficacement la chaleur. Seuls les systèmes équipés de refroidissement liquide semblent capables de maintenir une température stable. Augmentant significativement les coûts et la complexité des installations pour les entreprises clientes.

Nvidia : Un contexte industriel sous pression

Ces problèmes de surchauffe surviennent alors que Nvidia fait face à d'autres défis industriels. Ses principaux partenaires, comme TSMC et Samsung, rencontrent des difficultés dans la production des puces avancées. Notamment en raison des processus complexes d’intégration du HBM3 (High Bandwidth Memory). Ces retards pourraient repousser de plusieurs mois la livraison des nouvelles générations de systèmes, compromettant les projets de déploiement des centres de données des clients.

Conséquences pour l’industrie et solutions envisagées

Pour Nvidia, ce problème est d’autant plus critique que le marché de l’IA explose, avec une demande sans précédent pour des solutions puissantes et fiables. Le coût unitaire de ces systèmes, atteignant jusqu’à 500 000 euros, rend les retards et les ajustements d’autant plus coûteux pour les entreprises clientes.

Afin de pallier ces défis, Nvidia explore des solutions telles que l’adoption de formats plus grands (4U) et une généralisation du refroidissement liquide, mais cela pourrait ralentir les délais de production et augmenter les coûts.

Nvidia : une crise qui appelle des ajustements rapides

Les problèmes de surchauffe des serveurs Blackwell rappellent que même les leaders technologiques ne sont pas à l'abri des défis d'ingénierie. Pour Nvidia, cette crise est une course contre la montre : rassurer ses partenaires, adapter ses technologies et répondre à une demande exponentielle. Les décisions prises dans les prochains mois détermineront si l’entreprise parviendra à conserver son rôle de moteur de l’innovation dans l’IA.

💡Cet article vous a plu ? Lisez également : Daisy : l’IA grand-mère qui piège les escrocs téléphoniques