Cận cảnh máy chủ AI Supermicro SYS-821GE-TNHR 8x NVIDIA H100 làm mát bằng chất lỏng

Bài này sẽ cung cấp cho các bạn những góc nhìn cận cảnh của hệ thống máy chủ giải nhiệt nước đặc biệt Supermicro SYS-821GE-TNHR. Đây là hệ thống trang bị 8x GPU NVIDIA H100 với một điểm mới: nó được làm mát bằng chất lỏng để giảm chi phí làm mát và tiêu thụ điện năng. Chúng tôi có cơ hội chụp được một loạt các bức ảnh chi tiết về nó và bạn sẽ được quan sát nó một cách đầy đủ.

Tổng quan về Máy chủ AI giải nhiệt nước Supermicro SYS-821GE-TNHR 8x NVIDIA H100

Xem video chi tiết được thực hiện bởi đội ngũ STH:

Giải pháp hạ tầng Deep Learning, Trí tuệ Nhân tạo - AI

Đây là hệ thống được minh họa với ống góp giá ngang ở trên và bộ phân phối làm mát Supermicro (CDU) ở phía dưới.


Dãy kết nối ống dẫn nước theo chiều ngang trên Supermicro SYS 821GE TNHR và CDU 1

Như các bạn có thể thấy, dãy ống góp theo chiều ngang cho phép năm cặp vào/ra khác nhau cho hệ thống làm mát bằng chất lỏng.


Dãy ống góp ngang Supermicro SYS 821GE TNHR 3

Bốn trong số các cặp này đi tới khay trên cùng và một cặp đi đến khay CPU.


Dãy ống góp ngang Supermicro SYS 821GE TNHR 6

Bên dưới đây là các ống mềm đã được ngắt kết nối. Mất khoảng 20 giây để ngắt kết nối cho tất cả mười đầu nối nhanh.


Ống góp ngang Supermicro SYS 821GE TNHR 8

Khay GPU trên hệ thống này trượt ra ngoài. Vẫn còn một số hệ thống trên thị trường có khay GPU không trượt ra ngoài dễ dàng như vậy, đây là một điểm khác biệt. Các hệ thống GPU thực sự sẽ thất bại đặc biệt là với các cụm HPC hoặc AI cho mục đích chạy liên tục 24×7, vì vậy đây gần như là một tính năng bắt buộc đối với các cấu hình cao cấp.


Supermicro SYS 821GE TNHR GPU làm mát bằng chất lỏng và khay NVSwitch 6

Bên trong khay, chúng ta có thể thấy bốn bộ khối làm mát chất lỏng GPU kép với một khối NVSwitch duy nhất. Cả ba thành phần đều được làm mát bằng vòng lặp và hệ thống có bốn vòng lặp dành cho GPU.


Supermicro SYS 821GE TNHR GPU làm mát bằng chất lỏng và khay NVSwitch 3

Đây là một hình ảnh khác với mặt NVSwitch nằm ở mặt trước của khung máy.


Supermicro SYS 821GE TNHR GPU làm mát bằng chất lỏng và khay NVSwitch 1

Chúng tôi đã thấy một số hệ thống làm mát bằng chất lỏng khác không hỗ trợ làm mát cho NVSwitches, nhưng vì mỗi cái trong số các switch này có công suất trên 100W nên chúng cần được làm mát bằng chất lỏng để giảm tốc độ quạt.


Supermicro SYS 821GE TNHR – Giải nhiệt nước cho khay GPU và NVSwitch 5

Dưới đây là cận cảnh của khối làm mát bằng chất lỏng cho GPU.


Supermicro SYS 821GE TNHR – Giải nhiệt nước cho NVIDIA H100 và NVSwitch  5

Đây là góc nhìn khác.


Supermicro SYS 821GE TNHR – Giải nhiệt nước cho NVIDIA H100 và NVSwitch 3

Chúng thậm chí còn có ít logo vì chúng được thiết kế bởi Supermicro.


Supermicro SYS 821GE TNHR NVIDIA H100 & NVSwitch Liquid Cooling Block 2

Đây là khối nhỏ hơn cho NVSwitch.


Supermicro SYS 821GE TNHR – Khối giải nhiệt nước NVIDIA H100 và NVSwitch 4

Đây là mặt dưới có 2 tấm lạnh GPU và tấm lạnh NVSwitch.

Supermicro SYS 821GE TNHR NVIDIA H100 và NVSwitch Khối làm mát bằng chất lỏng 8

Nhìn ở một góc độ khác, chúng ta có thể thấy miếng dán và miếng đệm cho tất cả các thành phần chính của H100.

Supermicro SYS 821GE TNHR NVIDIA H100 và NVSwitch Khối làm mát bằng chất lỏng 6

Đây là khối NVSwitch mà chúng ta có thể đã làm hỏng miếng dán khi di chuyển nó.

Supermicro SYS 821GE TNHR NVIDIA H100 và NVSwitch Khối làm mát bằng chất lỏng 7

Bên dưới khay GPU là khay chứa CPU và ổ lưu trữ.


Supermicro SYS 821GE TNHR Làm mát bằng chất lỏng và ống góp nằm ngang 1

Ở đây, chúng ta có thể thấy một mảng lưu trữ cho hệ thống và hai ống dẫn nước vào cho vòng làm mát CPU.


Supermicro SYS 821GE TNHR Tản nhiệt bằng chất lỏng 1

Ở bên phải, chúng tôi có module quản lý khung cho các tính năng như IPMI và quản lý cục bộ.


Supermicro SYS 821GE TNHR BMC 1 làm mát bằng chất lỏng

Dưới đây là góc nhìn rõ hơn về ống tuần hoàn và quạt làm mát CPU. Vẫn cần có quạt để làm mát tất cả các thành phần có công suất thấp hơn như module DDR5, bộ chuyển mạch PCIe, v.v.


Ống góp ngang Supermicro SYS 821GE TNHR 7

Kéo CPU và khay lưu trữ ra, chúng ta có thể thấy rất nhiều thứ đáng chú ý.


Khay CPU tản nhiệt bằng chất lỏng SYS 821GE TNHR 1

Có một vách dẫn luồng khí để định tuyến không khí qua 32 khe DIMM DDR5.


Supermicro SYS 821GE TNHR CPU Intel Xeon 3 làm mát bằng chất lỏng

Ở đây chúng ta có thể thấy block tản nhiệt nước của CPU. Một điều cần lưu ý là Supermicro có cả khay CPU Intel Xeon và AMD EPYC có thể được sử dụng trong máy chủ này, vì vậy nếu ai đó muốn sử dụng thứ gì đó thú vị như bộ tăng tốc tích hợp của Intel hoặc các bộ phận AMD EPYC Bergamo 128 nhân, điều đó khá dễ tùy biến.

Supermicro SYS 821GE TNHR CPU Intel Xeon làm mát bằng chất lỏng 1

Một phần quan trọng của máy chủ AI ngày nay là các bộ chuyển mạch PCIe. Ở đây chúng ta có thể thấy các đầu cáp PCIe vì chúng ta cần kết nối bằng cáp giữa các CPU, bảng chuyển mạch PCIe và các thành phần khác.


Supermicro SYS 821GE TNHR Kết nối PCIe làm mát bằng chất lỏng 1

Bên dưới các tản nhiệt này, chúng ta có các PCIe Switches.


Supermicro SYS 821GE TNHR Kết nối PCIe làm mát bằng chất lỏng 2

Đây là một bộ cáp PCIe khác.


Supermicro SYS 821GE TNHR Kết nối PCIe làm mát bằng chất lỏng 3

Ở góc nhìn từ trên xuống:


Supermicro SYS 821GE TNHR Kết nối PCIe làm mát bằng chất lỏng 4

Ở đây chúng ta có thể thấy mô hình mở rộng DP801. Có bộ NIC DP801, bộ mở rộng PCIe DP801, v.v.


Supermicro SYS 821GE TNHR Kết nối PCIe làm mát bằng chất lỏng 5

Chuyển sang mặt sau của hệ thống, chúng ta có thể thấy các tính năng chuẩn đối với các hệ thống AI chính thống. Phía sau là bộ nguồn, kết nối mạng và quạt.


Supermicro SYS 821GE TNHR Phía sau 1

Các quạt có thể hotswap và bộ nguồn lớn.


Supermicro SYS 821GE TNHR Phía Sau 2

Mỗi bộ nguồn là một PSU 3kW. Như mọi người có thể tưởng tượng, Supermicro đã xây dựng hệ thống này không chỉ cho GPU thế hệ hiện tại mà còn cho các GPU trong tương lai. Hệ thống này cũng được thiết kế thay thế để làm mát không khí, nơi chúng tôi mong đợi mức tiêu thụ điện năng cao hơn của cả chassis.


Supermicro SYS 821GE TNHR 3kW PSU 1

Dưới đây là cận cảnh của khay mạng. Khay mạng có thể có các bộ điều hợp Infiniband, 100GbE, 200GbE, 400GbE, v.v. Chúng tôi thậm chí còn nhìn thấy hai cổng đồng ở đây.


Supermicro SYS 821GE TNHR Phía Sau 3

Như mọi người có thể thấy, khay mạng có thể được tháo ra để dễ dàng bảo trì và tùy biến.


Supermicro SYS 821GE TNHR Phía Sau 4

Như bạn có thể nhận ra ở các máy chủ có các thiết lập làm mát bằng không khí và bằng chất lỏng. Khi chúng tôi xem xét hiệu suất của GPU NVIDIA H100 80GB với làm mát bằng không khí so với làm mát bằng chất lỏng, hiệu suất thực tế là như nhau. Lý do người ta chọn tùy chọn làm mát bằng chất lỏng là để tiêu thụ điện năng thấp hơn, và do đó dẫn đến chi phí vận hành thấp hơn và mật độ rack có thể cao hơn.

Tổng kết

Mọi người thường cho rằng tất cả các hệ thống 8-way NVIDIA H100 đều giống nhau. Bây giờ chúng tôi đã có thời gian tiếp cận với hầu hết tất cả các tùy chọn hiện có, và rõ ràng là chúng thực sự không giống nhau! Làm mát không khí và Intel Xeon Sapphire Rapids (và sắp tới là Emerald Rapids) là những yếu tố quan trọng tại thời điểm này. Giá cả, tính sẵn có, khả năng sử dụng và khả năng tùy biến với những thứ như làm mát bằng chất lỏng, tùy chọn AMD, các NIC khác nhau, v.v. là những điểm khác biệt lớn ở thời điểm này.


Ống góp ngang Supermicro SYS 821GE TNHR và CDU 1

Hy vọng đây là một quan sát thú vị về hệ thống Supermicro SYS-821GE-TNHR. Đây là một trong những hệ thống lớn cực kỳ phổ biến đối với AI. Chúng tôi đã xem xét các hệ thống đào tạo GPU Supermicro AI từ năm 2016/2017 và thật tuyệt vời khi chúng tôi đã chuyển từ các máy chủ đào tạo GPU PCIe 8x và 10x sang các tùy chọn làm mát bằng chất lỏng rất linh hoạt ngày nay.

Nguồn STH

____
Bài viết liên quan

Góp ý / Liên hệ tác giả