Kiến trúc NVIDIA Blackwell với GB200 NVL72: Định nghĩa lại điện toán AI cấp độ Exascale

Thế giới Trí tuệ Nhân tạo (AI), đặc biệt là lĩnh vực AI Tạo sinh (Generative AI) và các Mô hình Ngôn ngữ Lớn (LLM), đang đòi hỏi sức mạnh tính toán vượt ra ngoài giới hạn vật lý hiện tại. NVIDIA Blackwell không chỉ là một kiến trúc GPU mới; nó là một nền tảng điện toán toàn diện được thiết kế để giải quyết những thách thức về vấn đề gia tăng quy mô, hiệu suất xử lý và hiệu quả sử dụng điện năng trong kỷ nguyên AI hàng nghìn tỷ tham số.

Kiến trúc Blackwell GPU: Đột phá từ chiplet với hàng tỷ bóng bán dẫn

Kiến trúc Blackwell là sự kế thừa mang tính cách mạng từ thế hệ Hopper, tập trung giải quyết vấn đề lớn nhất của việc huấn luyện mô hình: tắc nghẽn truyền dẫn và hiệu suất sử dụng điện năng.

1. Cấu tạo và công nghệ sản xuất

  • Mật độ tuyệt đối: GPU Blackwell, ví dụ như B200 GPU, là một kỳ tích kỹ thuật với 208 tỷ bóng bán dẫn. NVIDIA đạt được điều này bằng cách sử dụng kiến trúc chiplet (hay multi-die) tiên tiến.
  • Kết nối chip-to-Chip (C2C) 10 TB/s: Hai khuôn (dies) Blackwell được kết nối vật lý với nhau bằng một giao diện băng thông 10 Terabytes/giây (TB/s), giúp chúng hoạt động như một GPU thống nhất. Điều này cho phép mở rộng quy mô tính toán mà vẫn duy trì băng thông nội tại cực cao.
  • Bộ nhớ HBM3e: Tích hợp bộ nhớ băng thông cao HBM3e với tổng băng thông bộ nhớ cực lớn (ví dụ: lên tới 8TB/s cho B200), đảm bảo GPU luôn được cấp dữ liệu kịp thời.

2. Công nghệ Tensor Core thế hệ mới

  • Hỗ trợ độ chính xác FP4: Blackwell giới thiệu việc hỗ trợ cho định dạng FP4 (4-bit Floating point) mới, một bước tiến lớn so với FP8 của thế hệ trước. Đối với suy luận AI (AI Inference), việc giảm độ chính xác xuống FP4 giúp tăng mật độ tính toán lên gấp đôi, từ đó mang lại tốc độ suy luận nhanh hơn tới 30 lần cho các LLM khổng lồ.
  • Công nghệ Transformer Engine thế hệ 2: Bộ phận này được thiết kế lại để quản lý việc truyền dẫn dữ liệu và tính toán với độ chính xác hỗn hợp (mixed-precision) hiệu quả hơn. Nó tự động điều chỉnh việc sử dụng các định dạng số như FP8, FP6, và FP4, đảm bảo độ chính xác của mô hình trong khi tối đa hóa thông lượng.

Grace Blackwell Superchip (GB200): Xóa bỏ nút thắt băng thông

GB200 Superchip là thành phần cơ bản và là đỉnh cao của triết lý điện toán tăng tốc của NVIDIA: Tích hợp sâu (Deep integration).

Introduction to NVIDIA GB200 Superchip and Liquid-Cooled Servers and Cabinets - fibermall.com

1. Kiến trúc Superchip

GB200 kết hợp một NVIDIA Grace CPU (72 lõi Arm neoverse V2) cùng với hai NVIDIA Blackwell GPU thành một Superchip duy nhất.

Thành phần Vai trò chính Đặc điểm kỹ thuật
Grace CPU Xử lý dữ liệu, OS, các tác vụ không tăng tốc 72 Lõi Arm neoverse V2, Bộ nhớ LPDDR5X dung lượng lớn (480GB)
Blackwell GPU (x2) Huấn luyện/Suy luận AI, HPC 208 Tỷ bóng bán dẫn, Bộ nhớ HBM3e băng thông cao

2. Công nghệ NVLink-Chip-to-Chip (C2C)

  • Liên kết vật lý trực tiếp: Đây là giao diện tốc độ cao, độ trễ thấp, kết nối Grace CPU với các GPU Blackwell.
  • Băng thông liên kết: Cung cấp băng thông hai chiều 900 GB/s (GigaBytes/giây). Tốc độ này nhanh hơn đáng kể so với kết nối PCIe thế hệ trước, loại bỏ hiện tượng “nghẽn cổ chai” dữ liệu giữa CPU và GPU.
  • Bộ nhớ đồng nhất (Coherent memory): Cho phép CPU và GPU truy cập cùng một không gian bộ nhớ. Điều này cực kỳ quan trọng đối với các khối lượng công việc liên quan đến xử lý dữ liệu lớn (Data Processing), giúp tăng tốc độ tải, truy cập, và tổng hợp dữ liệu gấp nhiều lần so với kiến trúc truyền thống.

III. GB200 NVL72: Hệ thống siêu máy tính AI quy mô tủ rack (Rack-Scale)

GB200 NVL72 là một hệ thống siêu máy tính hoàn chỉnh, được thiết kế theo kiến trúc quy mô tủ rack (Rack-Scale architecture) để giải quyết các mô hình AI có hàng nghìn tỷ tham số.

1. Cấu trúc hệ thống vật lý

  • Quy mô: Mỗi tủ rack NVL72 chứa 18 khay tính toán Blackwell (Compute trays).
  • Tổng năng lực tính toán đến từ:
    • 72 NVIDIA Blackwell GPU
    • 36 NVIDIA Grace CPU
  • Làm mát bằng chất lỏng (Liquid cooling): Đây là tính năng bắt buộc. Với mật độ năng lượng lên tới 120kW trên một tủ rack, chỉ có làm mát bằng chất lỏng mới đảm bảo nhiệt độ ổn định và đạt được hiệu suất năng lượng tối ưu.

2. Công nghệ NVLink Switch: Biến cả tủ rack thành một “siêu chip” duy nhất

Đây là điểm khác biệt cốt lõi:

  • NVLink Thế hệ 5: Các superchip GB200 được kết nối với nhau thông qua 9 NVLink Switches đặc biệt bên trong tủ rack.
  • Miền NVLink Thống nhất: Toàn bộ 72 GPU trong tủ rack được kết nối với nhau trong một Miền NVLink duy nhất. Điều này cho phép các GPU giao tiếp với mọi GPU khác với tốc độ cực cao, tương đương như chúng đang nằm trên cùng một bo mạch chủ.
  • Băng thông hệ thống: Cung cấp băng thông All-to-All tổng hợp lên tới 130 TB/s và băng thông AllReduce (cần thiết cho huấn luyện AI phân tán) lên tới 260 TB/s. Tốc độ này nhanh hơn gấp 36 lần so với việc sử dụng mạng Ethernet 400Gb/s truyền thống.

3. Công nghệ làm mát bằng chất lỏng: Chìa khóa cho mật độ tính toán kỷ lục

Trong các hệ thống điện toán tăng tốc thế hệ mới như GB200 NVL72, mật độ sử dụng năng lượng và nhiệt lượng sinh ra từ các chip GPU/CPU là rất lớn. Việc sử dụng quạt gió (làm mát bằng khí) truyền thống không còn đảm bảo. Do đó, làm mát bằng chất lỏng trực tiếp lên chip (Direct-to-Chip Liquid cooling – DLC) trở thành một yêu cầu bắt buộc và là một phần không thể thiếu trong thiết kế của GB200 NVL72.

Sự cần thiết của giải pháp làm mát bằng chất lỏng

  • Quản lý lượng điện năng rất cao: Một tủ rack GB200 NVL72 hoàn chỉnh có thể tiêu thụ tới 120kW điện năng (tương đương với cả một ngôi nhà hoặc một khu dân cư nhỏ). Lượng nhiệt phát ra từ 72 GPU Blackwell và 36 CPU Grace là cực kỳ lớn.
  • Hiệu suất tản nhiệt: Chất lỏng (thường là nước đã được xử lý hoặc chất điện môi chuyên dụng) có khả năng hấp thụ và dẫn nhiệt tốt hơn không khí gấp nhiều lần. DLC giúp loại bỏ nhiệt trực tiếp tại nguồn (trên bề mặt chip), giữ cho các linh kiện hoạt động ở nhiệt độ tối ưu, đảm bảo hiệu suất cao nhất và độ ổn định lâu dài.
  • Giảm chi phí và tiếng ồn: So với việc phải xây dựng các trung tâm dữ liệu với hệ thống điều hòa không khí khổng lồ và tốn kém, làm mát bằng chất lỏng giúp giảm đáng kể chi phí vận hành (điện năng tiêu thụ cho làm mát) và loại bỏ tiếng ồn lớn từ quạt.

Cấu trúc làm mát bên trong GB200 NVL72

Hệ thống làm mát được thiết kế đồng bộ theo quy mô tủ rack:

  • Tấm lạnh (Cold plate): Mỗi GB200 Superchip được trang bị các tấm lạnh chuyên dụng, được gắn trực tiếp lên bề mặt GPU Blackwell và CPU Grace. Chất lỏng làm mát sẽ lưu thông qua các kênh nhỏ trong tấm lạnh này, hấp thụ nhiệt từ chip.
  • Lưu thông chất lỏng: Chất lỏng làm mát được bơm từ Bộ phân phối chất lỏng (Coolant distribution unit – CDU) nằm ngay trong hoặc sát tủ rack.
    • CDU In-Rack: CDU là trái tim của hệ thống làm mát. Nó bơm chất lỏng vào các khay tính toán (Compute trays) và nhận lại chất lỏng đã hấp thụ lượng nhiệt nóng. CDU cũng có vai trò trao đổi nhiệt với một hệ thống nước lớn hơn của trung tâm dữ liệu (thường là nước tháp giải nhiệt).
    • Ống dẫn và khớp nối nhanh (Quick-Connect): Hệ thống sử dụng các ống dẫn và khớp nối chất lượng cao, chống rò rỉ, cho phép kỹ thuật viên tháo lắp các khay tính toán mà không cần xả toàn bộ chất lỏng trong hệ thống.
  • Thiết kế đã tối ưu hóa (Optimized design): Với việc tích hợp các khay tính toán MGX (Kiến trúc Module hóa của NVIDIA), thiết kế làm mát đã được tối ưu hóa để đảm bảo luồng chất lỏng đồng đều qua tất cả 72 GPU và 36 CPU, bất kể vị trí của chúng trong tủ rack.

Nhờ công nghệ làm mát bằng chất lỏng tinh vi này, GB200 NVL72 có thể cung cấp hiệu suất điện toán tăng tốc cao nhất hiện nay, đóng vai trò là xương sống cho các nhà máy AI thế hệ mới.

3. Định nghĩa lại điện toán AI cấp độ Exascale

Được thiết kế có mục đích hướng đến kỷ nguyên AI hàng nghìn tỷ tham số, các hệ thống dựa trên Grace Blackwell mang lại những con số gây ấn tượng cho ngành công nghiệp:

Tăng tốc suy luận
Tăng tốc độ suy luận LLM (ví dụ: GPT-MoE 1.8T) lên 30 lần so với H100.
Giảm tổng chi phí sở hữu (TCO)
Giảm 25 lần Chi phí Sở hữu Tổng thể và tiêu thụ năng lượng cho cùng một khối lượng công việc.
Huấn luyện quy mô lớn
Tăng tốc huấn luyện LLM lên 4 lần nhờ NVLink Switch system.
Điện toán bền vững
Hiệu suất năng lượng vượt trội nhờ làm mát bằng chất lỏng.

 

NVIDIA GB200 NVL72 không chỉ là một cỗ máy tính toán, mà là một nhà máy AI hoàn chỉnh, cung cấp nền tảng cần thiết để xây dựng và vận hành các mô hình AI thế hệ tiếp theo, đưa Trí tuệ Nhân tạo từ phòng thí nghiệm ra ứng dụng thực tế với tốc độ và quy mô chưa từng thấy.

 

____
Bài viết liên quan
Góp ý / Liên hệ tác giả