Transformer Engine (TE) là một thư viện để tăng tốc các mô hình Transformer trên GPU NVIDIA, bao gồm sử dụng độ chính xác 8-bit floating point (FP8) trên GPU Hopper, để cung cấp hiệu suất tốt hơn với mức sử dụng bộ nhớ thấp hơn trong cả đào tạo và suy luận. TE cung cấp một bộ sưu tập các khối xây dựng được tối ưu hóa cao cho các kiến trúc Transformer phổ biến và API theo kiểu mixed-precision tự động có thể được sử dụng liền mạch với mã dành riêng cho framework của riêng bạn. TE cũng bao gồm API framework trên C++ có thể được tích hợp với các thư viện học sâu khác để kích hoạt hỗ trợ FP8 cho các Transformer.