Phần mềm NVIDIA mới cho nền tảng Blackwell chạy AI Factory với tốc độ ánh sáng

Thời đại công nghiệp được khởi đầu và thúc đẩy bởi hơi nước. Trong khi thời đại kỹ thuật số mang đến sự thay đổi thông qua phần mềm. Và hiện nay, thời đại AI được đánh dấu bằng sự phát triển của Generative AI, Agentic AIReasoning AI, cho phép các mô hình xử lý nhiều dữ liệu hơn để học và lý luận nhằm giải quyết các vấn đề phức tạp hơn.

Cũng giống như các nhà máy công nghiệp biến nguyên liệu thô thành hàng hóa, các doanh nghiệp hiện đại cần các nhà máy AI (AI Factory) để nhanh chóng chuyển đổi dữ liệu thành thông tin nắm bắt có khả năng mở rộng, chính xác và đáng tin cậy.

Việc điều phối hạ tầng mới này phức tạp hơn rất nhiều khi so sánh với việc xây dựng các nhà máy chạy bằng hơi nước của thời kỳ trước. Các mô hình tiên tiến đòi hỏi tài nguyên ở quy mô siêu máy tính. Bất kỳ khoảng thời gian downtime nào cũng có nguy cơ làm chệch hướng tiến trình trong nhiều tuần và làm giảm việc sử dụng GPU.

Để giúp các doanh nghiệp và nhà phát triển quản lý và vận hành các nhà máy AI với tốc độ ánh sáng, NVIDIA đã công bố giải pháp NVIDIA Mission Control (tại sự kiện GTC 2025), một nền tảng phần mềm điều hành và phối hợp hợp nhất và duy nhất tự động hóa việc quản lý phức tạp các trung tâm dữ liệu và tải xử lý AI.

NVIDIA Mission Control cải thiện mọi khía cạnh của hoạt động nhà máy AI. Từ việc cấu hình triển khai đến xác thực hạ tầng để vận hành tải xử lý của nhà phát triển, khả năng của nó giúp các doanh nghiệp đưa các mô hình biên giới vào hoạt động nhanh hơn.

Phần mềm NVIDIA Mission Control — hiện có sẵn cho các hệ thống NVIDIA DGX và sẽ sớm ra mắt từ các nhà cung cấp hệ thống hàng đầu — giúp tăng cường khả năng sử dụng GPU lên 5 lần và cải thiện hiệu quả đào tạo và suy luận ở mọi quy mô.

Nó được thiết kế để dễ dàng chuyển đổi các hệ thống dựa trên NVIDIA Blackwell từ pre-training sang post-training — và giờ là mở rộng trong thời gian thử nghiệm — với tốc độ và hiệu quả rất cao. Phần mềm cho phép các doanh nghiệp dễ dàng chuyển đổi giữa tải xử lý đào tạo và suy luận trên các hệ thống NVIDIA DGX dựa trên Blackwell và các hệ thống NVIDIA Grace Blackwell, phân bổ lại các tài nguyên cụm một cách năng động để phù hợp với các ưu tiên thay đổi.

Ngoài ra, Mission Control còn bao gồm công nghệ NVIDIA Run:ai để chuẩn hóa các hoạt động và sắp xếp công việc cho mục đích phát triển, đào tạo và suy luận, giúp tăng hiệu suất sử dụng hạ tầng lên tới 5 lần.

Khả năng tự phục hồi (autonomous recovery) của Mission Control, được hỗ trợ bởi các tính năng kiểm tra nhanh và khởi động lại theo từng cấp độ tự động, có thể phục hồi các tác vụ nhanh hơn đến 10 lần so với các phương pháp truyền thống dựa vào sự can thiệp bằng tay, thúc đẩy hiệu quả đào tạo AI và suy luận để duy trì hoạt động của các ứng dụng AI.

Được xây dựng dựa trên nhiều thập kỷ tích lũy kinh nghiệm về siêu máy tính của NVIDIA, Mission Control cho phép các doanh nghiệp chỉ cần chạy các mô hình bằng cách giảm thiểu thời gian dành cho việc quản lý hạ tầng AI. Nó tự động hóa vòng đời của hạ tầng nhà máy AI cho tất cả các hệ thống NVIDIA DGX dựa trên NVIDIA Blackwell và các hệ thống NVIDIA Grace Blackwell từ Dell Technologies, Hewlett Packard Enterprise (HPE), Lenovo và Supermicro để giúp hạ tầng AI tiên tiến dễ tiếp cận hơn với các ngành công nghiệp trên thế giới.

Các doanh nghiệp có thể đơn giản hóa và tăng tốc việc triển khai các hệ thống NVIDIA DGX GB300 và DGX B300 bằng cách sử dụng Mission Control với dịch vụ NVIDIA Instant AI Factory được cấu hình sẵn trong các trung tâm dữ liệu hỗ trợ AI của Equinix trên 45 thị trường trên toàn cầu.

Phần mềm tiên tiến cung cấp cho doanh nghiệp khả năng giám sát hạ tầng không bị gián đoạn

Mission Control tự động hóa quản lý hạ tầng đầu cuối — bao gồm cung cấp, giám sát và chẩn đoán lỗi — nhằm cung cấp hoạt động vận hành hạ tầng không gián đoạn. Thêm vào đó, nó liên tục giám sát mọi phân lớp của ứng dụng và hạ tầng để dự đoán và xác định các nguồn gây downtime và kém hiệu quả — tiết kiệm thời gian, điện năng và cả chi phí.

Các lợi ích tăng thêm của phần mềm NVIDIA Mission Control bao gồm:

  • Thiết lập và cung cấp dịch vụ cụm đơn giản với tính năng tự động hóa mới và giao diện lập trình ứng dụng chuẩn hóa để đẩy nhanh thời gian triển khai với khả năng quản lý và hình ảnh hóa kho tài nguyên tích hợp.
  • Điều phối tải xử lý liền mạch để đơn giản hóa quy trình làm việc Slurm và Kubernetes.
  • Tính năng Power Profiles tối ưu hóa để cân bằng nhu cầu năng lượng và điều chỉnh hiệu suất GPU cho nhiều loại tải xử lý khác nhau với các điều khiển có thể lựa chọn bởi nhà phát triển.
  • Khôi phục tác vụ tự động để xác định, cô lập và phục hồi sau tình trạng kém hiệu quả mà không cần can thiệp thủ công, nhằm tối đa hóa năng suất của nhà phát triển và khả năng phục hồi của hạ tầng.
  • Dashboard có thể tùy biến theo dõi các chỉ số hiệu suất chính với quyền truy cập vào dữ liệu telemetry từ xa quan trọng về các cụm.
  • Kiểm tra tình trạng thống theo yêu cầu để xác thực hiệu suất của phần cứng và cụm trong suốt vòng đời của hạ tầng điện toán.
  • Tích hợp quản lý tòa nhà để tăng cường phối hợp với các hệ thống quản lý tòa nhà nhằm kiểm soát tốt hơn các sự cố về điện và làm mát, bao gồm phát hiện rò rỉ, một cách nhanh chóng.

Các nhà sản xuất hệ thống hàng đầu mang NVIDIA Mission Control đến máy chủ Grace Blackwell

Các nhà sản xuất máy chủ hàng đầu đã lên kế hoạch cung cấp các hệ thống NVIDIA GB200 NVL72 và GB300 NVL72 với NVIDIA Mission Control.

Dell có kế hoạch cung cấp phần mềm NVIDIA Mission Control như một phần của Dell AI Factory với NVIDIA.

Ihab Tarazi, giám đốc công nghệ kiêm phó chủ tịch cấp cao tại Dell Technologies cho biết: “Cuộc cách mạng công nghiệp AI đòi hỏi hạ tầng hiệu quả, có thể thích ứng nhanh như tốc độ phát triển của doanh nghiệp và Dell AI Factory với NVIDIA cung cấp khả năng tính toán, kết nối mạng, lưu trữ và hỗ trợ toàn diện”. “Việc kết hợp phần mềm NVIDIA Mission Control với máy chủ Dell PowerEdge XE9712 và XE9680 giúp các doanh nghiệp dễ dàng mở rộng quy mô mô hình để đáp ứng nhu cầu đào tạo và suy luận, biến dữ liệu thành thông tin chi tiết có thể hành động nhanh hơn bao giờ hết”.

HPE sẽ cung cấp hệ thống NVIDIA GB200 NVL72 của HPE và GB300 NVL72 của HPE với phần mềm NVIDIA Mission Control.

Trish Damkroger, phó chủ tịch cấp cao kiêm tổng giám đốc HPC & AI Infrastructure Solutions tại HPE cho biết: “Chúng tôi đang giúp các nhà cung cấp dịch vụ và doanh nghiệp tiên tiến triển khai, mở rộng và tối ưu hóa nhanh chóng các cụm AI phức tạp có khả năng đào tạo các mô hình tham số nghìn tỷ”. “Là một phần trong quá trình hợp tác với NVIDIA, chúng tôi sẽ cung cấp các hệ thống NVIDIA Grace Blackwell và phần mềm Mission Control với các dịch vụ toàn cầu của HPE và chuyên môn làm mát bằng chất lỏng trực tiếp để thúc đẩy kỷ nguyên AI mới”.

Lenovo có kế hoạch cập nhật Lenovo Hybrid AI Advantage bằng các hệ thống NVIDIA để bao gồm phần mềm NVIDIA Mission Control.

Brian Connors, phó chủ tịch toàn cầu kiêm tổng giám đốc mảng doanh nghiệp và SMB và nhóm giải pháp hạ tầng AI tại Lenovo cho biết: “Việc đưa phần mềm NVIDIA Mission Control vào Lenovo Hybrid AI Advantage với các hệ thống NVIDIA giúp các doanh nghiệp điều hướng nhu cầu của tải xử lý AI tạo ra và AI tác nhân với sự nhanh nhẹn vô song”. “Bằng cách tự động hóa việc điều phối hạ tầng và cho phép chuyển đổi liền mạch giữa tải xử lý đào tạo và suy luận, Lenovo và NVIDIA đang giúp khách hàng mở rộng quy mô đổi mới AI với tốc độ kinh doanh”.

Supermicro có kế hoạch tích hợp phần mềm NVIDIA Mission Control vào hệ thống Supercluster của mình.

“Supermicro tự hào hợp tác với NVIDIA trong hệ thống Grace Blackwell NVL72 được hỗ trợ đầy đủ bởi phần mềm NVIDIA Mission Control,” Cenly Chen, giám đốc tăng trưởng tại Supermicro. “Chạy trên hệ thống AI SuperCluster của Supermicro với NVIDIA Grace Blackwell, phần mềm NVIDIA Mission Control cung cấp cho khách hàng bộ phần mềm quản lý liền mạch để tối đa hóa hiệu suất trên cả hệ thống NVIDIA GB200 NVL72 hiện tại và các nền tảng tương lai như NVIDIA GB300 NVL72.”

Base Command Manager cung cấp bản khởi đầu miễn phí cho Quản lý cụm AI

Để hỗ trợ các doanh nghiệp quản lý hạ tầng, phần mềm NVIDIA Base Command Manager dự kiến ​​sẽ sớm được cung cấp miễn phí cho tối đa tám bộ tăng tốc (accelerator) trên mỗi hệ thống, cho bất kỳ quy mô cụm nào, với tùy chọn mua riêng NVIDIA Enterprise Support.

Kế hoạch ra thị trường

NVIDIA Mission Control cho các hệ thống NVIDIA DGX GB200 và DGX B200 hiện đã có sẵn. Các hệ thống NVIDIA GB200 NVL72 có Mission Control dự kiến ​​sẽ sớm có mặt trên Dell, HPE, Lenovo và Supermicro.

NVIDIA Mission Control dự kiến ​​sẽ có mặt trên các hệ thống NVIDIA DGX GB300 và DGX B300 mới nhất, cũng như các hệ thống GB300 NVL72 từ các nhà cung cấp hàng đầu toàn cầu vào cuối năm nay.

____
Bài viết liên quan
Góp ý / Liên hệ tác giả