Meta conçoit une puce CXL sur mesure pour réutiliser la mémoire des anciens serveurs et réduit les besoins de son parc de 25 %

Meta a conçu un circuit intégré spécifique (ASIC) Compute Express Link (CXL) nommé Vistara qui récupère la mémoire DDR4 des serveurs en fin de vie et la remet en service dans les nouvelles machines, une réponse pragmatique au gaspillage matériel et à l’augmentation vertigineuse du coût de la DRAM.

Le problème est structurel. Environ 40 % de l’immense parc de serveurs de Meta ne peut pas augmenter sa mémoire, privant des millions de machines de certaines charges de travail. Les serveurs ont une durée de vie prévue de trois à cinq ans, mais les barrettes DDR4 restent utilisables pendant sept à dix ans. Alors que les prix de la mémoire explosent, le secteur parle de « RAMpocalypse », l’achat de nouvelles RAM coûte cher. La réutilisation des anciennes barrettes évite entièrement ce coût.

Vistara est conçu autour d’une interface PCIe Gen5 x16 compatible CXL 2.0 et 1.1. Chaque puce intègre deux canaux mémoire DDR4 72 bits indépendants prenant en charge des vitesses allant jusqu’à 3 200 MT/s et jusqu’à 256 Go par puce avec des barrettes de 64 Go. Deux processeurs RISC-V sur mesure pilotent l’ASIC. L’unité physique qui héberge Vistara, appelée MemServer, associe un processeur AMD Turin (158 cœurs) à 768 Go de DDR5 locale et 256 Go de DDR4 réutilisée.

La mémoire DDR4 apparaît au système d’exploitation comme un nœud NUMA distinct, sans processeur. Les plates-formes de Meta utilisent d’abord toute la DDR4 locale disponible, puis basculent vers la mémoire CXL si nécessaire. Toutes les modifications du pilote du noyau Linux sont déjà intégrées en amont ou en cours d’intégration.

Déployé sur des millions de serveurs en production, Vistara gère l’inférence ML désagrégée (tables d’incorporation pour les systèmes de recommandation), le traitement des mégadonnées avec Spark et Hive, les bases de données, les caches distribués et les systèmes de construction CI/CD. Le résultat : une réduction de 25 % du nombre de serveurs pour les charges de travail d’inférence désagrégée et une réduction de 33 % des défaillances par manque de mémoire et des redémarrages de tâches associés.

Meta a présenté cette technologie à l’ISCA 2026 le 29 juin.

Traduit de l’anglais par l’équipe de localisation 1ban.news.