Die Transformer-Engine der zweiten Generation nutzt die benutzerdefinierte Blackwell Tensor Core-Technologie in Kombination mit den Innovationen von NVIDIA TensorRT™-LLM und NeMo™ Framework, um Inferenzen und Trainings für große Sprachmodelle (LLMs) und MoE-Modelle (Mixture-of-Experts) zu beschleunigen. Blackwell Tensor-Recheneinheiten fügen neue Präzisionen hinzu, einschließlich neuer von der Community definierter Mikroskalierungsformate, die eine hohe Genauigkeit und einfache Ersetzbarkeit für größere Präzisionen bieten.
Blackwell Ultra Tensor-Recheneinheiten verfügen über eine 2-fache Beschleunigung der Aufmerksamkeitsebene und 1,5-fache AI-Compute-FLOPS im Vergleich zu Blackwell GPUs. Die Blackwell Transformer Engine nutzt feinkörnige Skalierungstechniken, die sogenannte Micro-Tensor-Skalierung, um Leistung und Genauigkeit zu optimieren und 4-Bit-Gleitkomma-KI (FP4) zu ermöglichen. Dadurch werden die Leistung und Größe von Modellen der nächsten Generation, die der Speicher bei gleichbleibender hoher Genauigkeit unterstützen kann, verdoppelt.