Việc cập nhật firmware cho hệ thống NVIDIA DGX H100 và H200 là một quy trình quan trọng để đảm bảo hiệu suất, tính ổn định và bảo mật cao nhất. Quá trình này bao gồm việc cập nhật firmware cho nhiều thành phần khác nhau của hệ thống, bao gồm BMC (Baseboard Management Controller), BIOS, và các thành phần trên khay GPU.
Chuẩn bị trước khi cập nhật
Trước khi tiến hành cập nhật firmware, cần thực hiện các bước chuẩn bị sau để đảm bảo quá trình diễn ra suôn sẻ và an toàn:
- Ngừng mọi hoạt động không cần thiết: Dừng tất cả các tác vụ của người dùng, các công việc tính toán, dịch vụ giám sát và chẩn đoán trên hệ thống. Một khối lượng công việc lớn có thể làm gián đoạn quá trình cập nhật và dẫn đến lỗi không mong muốn.
- Dừng hoạt động của GPU: Đặc biệt lưu ý phải dừng mọi hoạt động liên quan đến GPU, bao gồm cả việc chạy lệnh
nvidia-smi
. Hoạt động của GPU có thể ngăn cản việc cập nhật VBIOS thành công. - Tải xuống gói firmware: Truy cập vào cổng thông tin hỗ trợ doanh nghiệp của NVIDIA (NVIDIA Enterprise Support Portal) để tải xuống các gói firmware mới nhất. Bạn sẽ cần hai tệp chính: một cho các thành phần hệ thống và một cho khay GPU.
- Chuẩn bị thông tin truy cập BMC: Đảm bảo bạn có địa chỉ IP, tên người dùng và mật khẩu để truy cập vào BMC của hệ thống DGX.
Trong quá trình cập nhật firmware BMC, tốc độ quạt của hệ thống có thể tăng lên. Đây là một hiện tượng bình thường.
Quy trình cập nhật Firmware
Việc cập nhật firmware được thực hiện chủ yếu thông qua công cụ dòng lệnh nvfwupd
của NVIDIA. Dưới đây là các bước cập nhật tuần tự cho các thành phần chính.
1. Cập nhật các thành phần trên Khay Bo mạch chủ (Motherboard Tray)
Các thành phần trên khay bo mạch chủ bao gồm Host BMC, Host BIOS, EROT, PCIe Retimer, PCIe Switch, PSU (Nguồn), Motherboard CPLD và Midplane CPLD.
1.1 Tạo một tệp JSON trống: Tạo một tệp tin, ví dụ mb_tray.json
, với nội dung là một cặp dấu ngoặc nhọn rỗng: {}
1.2 Thực thi lệnh cập nhật: Sử dụng lệnh nvfwupd
với cú pháp sau, thay thế các thông tin <bmc-ip-address>
, <bmc-username>
, <bmc-password>
và <firmware-package-file>
tương ứng:
nvfwupd -t ip=<bmc-ip-address> user=<bmc-username> password=<bmc-password> update_fw \ -p <tên-file-firmware-hệ-thống>.fwpkg -y -s mb_tray.json
2. Cập nhật các thành phần trên Khay GPU (GPU Tray)
Các thành phần trên khay GPU bao gồm VBIOS, NVSwitch, EROTs và FPGA.
2.1 Tạo tệp JSON cho khay GPU: Tạo một tệp tin, ví dụ gpu_tray.json
, với nội dung sau:
{ "Targets" :["/redfish/v1/UpdateService/FirmwareInventory/HGX_0"] }
2.2 Thực thi lệnh cập nhật: Chạy lệnh nvfwupd
sau, thay thế các thông tin cần thiết:
nvfwupd -t ip=<bmc-ip-address> user=<bmc-username> password=<bmc-password> update_fw \ -p <tên-file-firmware-khay-GPU>.fwpkg -y -s gpu_tray.json
Lệnh này sẽ thực hiện cập nhật song song cho tất cả các thành phần trên khay GPU.
3. Khởi động lại hệ thống
Sau khi hoàn tất việc cập nhật firmware cho cả hai khay, cần phải thực hiện khởi động lại toàn bộ hệ thống (cold reset) để các thay đổi có hiệu lực. Có thể sử dụng lệnh ipmitool
để thực hiện việc này:
ipmitool -I lanplus -H <bmc-ip-address> -U <bmc-username> -P <bmc-password> chassis power cycle
Các lưu ý quan trọng
- Luôn tham khảo tài liệu hướng dẫn cập nhật firmware (“NVIDIA DGX H100/H200 Firmware Update Guide”) đi kèm với phiên bản firmware bạn tải về để biết các hướng dẫn chi tiết và các lưu ý đặc biệt cho phiên bản đó.
- Việc cập nhật firmware không đúng cách có thể gây ra lỗi hệ thống nghiêm trọng. Nếu không chắc chắn, hãy liên hệ với bộ phận hỗ trợ của NVIDIA để được trợ giúp.
- Nên thực hiện sao lưu các dữ liệu quan trọng trước khi tiến hành bất kỳ hoạt động bảo trì hệ thống nào, bao gồm cả việc cập nhật firmware.
→ Tham khảo thêm hướng dẫn cập nhập firmware cho NVIDIA DGX từ Nhất Tiến Chung tại đây, hoặc tải toàn bộ hướng dẫn.