Người dùng chuyên sâu và các chuẩn benchmark đầu ngành đều cho thấy: Các GPU NVIDIA H100 Tensor Core mang lại hiệu suất AI tốt nhất, đặc biệt là trên các mô hình ngôn ngữ lớn (LLM) – thứ cung cấp sức mạnh cho AI tạo sinh (Generative AI).
GPU NVIDIA H100 đã thiết lập những kỷ lục mới trên cả 8 bài test trong các kiểm tra benchmark đào tạo MLPerf mới nhất vừa được công bố, xuất sắc trong bài test MLPerf mới cho Generative AI. Sức mạnh đó mang lại cho cả trên từng bộ tăng tốc và trên quy mô của các tổ hợp máy chủ lớn.
Ví dụ, trên cụm 3.584 GPU H100 có sẵn trên thị trường do công ty khởi nghiệp Inflection AI đồng phát triển và được vận hành bởi CoreWeave – nhà cung cấp dịch vụ đám mây chuyên về các workload được tăng tốc bởi GPU, hệ thống đã hoàn thành điểm chuẩn đào tạo khổng lồ dựa trên GPT-3 trong vòng chưa đầy 11 phút.
“Hiện khách hàng của chúng tôi đang xây dựng Generative AI và các LLM tiên tiến nhất theo quy mô lớn, nhờ vào hàng nghìn GPU H100 của chúng tôi trên các mạng InfiniBand tốc độ nhanh, độ trễ thấp” – Brian Venturo, Co-Founder và CTO của CoreWeave cho hay.
“Việc cùng đăng ký MLPerf giữa chúng tôi với NVIDIA thể hiện rõ hiệu suất tuyệt vời mà khách hàng của chúng tôi được hưởng”.
Hiệu năng tốt nhất hiện tại
Inflection AI đã khai thác hiệu suất đó để xây dựng LLM tiên tiến đằng sau dự án Personal AI, hay còn gọi là Pi (viết tắt của Personal Intelligence). Công ty sẽ hoạt động như một studio AI, tạo ra các ‘personal AI’ mà người dùng có thể tương tác theo những cách đơn giản, tự nhiên.
Mustafa Suleyman, CEO của Inflection AI cho biết: “Ngày nay, bất kỳ ai cũng có thể trải nghiệm sức mạnh của personal AI dựa trên mô hình ngôn ngữ lớn tiên tiến nhất của chúng tôi, được đào tạo trên ‘mạng lưới’ những GPU H100 mạnh mẽ của CoreWeave.
Được đồng sáng lập vào đầu năm 2022 bởi Mustafa và Karén Simonyan của DeepMind và Reid Hoffman, Inflection AI ra đời với mục đích hợp tác cùng CoreWeave để xây dựng một trong những cụm tính toán lớn nhất trên thế giới sử dụng các GPU của NVIDIA.
Những con số biết nói
Những trải nghiệm người dùng này phản ánh hiệu suất được thể hiện trong các điểm benchmark MLPerf được công bố hôm nay.
Các GPU H100 mang lại hiệu suất cao nhất trên mọi điểm chuẩn, bao gồm các LLM, hệ thống gợi ý (Recommendation Systems), thị giác máy tính (Computer Vision), hình ảnh y khoa (Medical Imaging) và nhận dạng giọng nói (Speech Recognition). Chúng là những con chip duy nhất chạy được cả 8 bài test, thể hiện tính linh hoạt của nền tảng NVIDIA AI.
Tuyệt vời hơn khi chạy trên quy mô lớn
Đào tạo thường là một công việc được thực hiện theo quy mô bởi nhiều GPU hoạt động song song. Trong mọi bài test MLPerf, những GPU H100 đã thiết lập các kỷ lục hiệu suất theo quy mô mới đối với đào tạo AI.
Việc tối ưu hóa trên toàn bộ lớp công nghệ cho phép mở rộng hiệu suất gần như tuyến tính trong bài test LLM khắt khe khi các lần gửi kết quả được chia tỷ lệ từ hàng trăm đến hàng nghìn GPU H100.
Ngoài ra, CoreWeave cung cấp hiệu suất từ tương tự như cloud cho đến những gì NVIDIA đạt được từ siêu máy tính AI chạy trong trung tâm dữ liệu local. Đó là minh chứng cho liên kết mạng có độ trễ thấp của NVIDIA Quantum-2 InfiniBand mà CoreWeave sử dụng.
Ở vòng này, MLPerf cũng đã cập nhật điểm chuẩn cho các hệ thống gợi ý (Recommender).
Thử nghiệm mới sử dụng bộ dữ liệu lớn hơn và mô hình AI hiện đại hơn để phản ánh tốt hơn những thách thức mà các nhà cung cấp dịch vụ đám mây phải đối mặt. NVIDIA là công ty duy nhất gửi những kết quả lên bảng điểm benchmark cấp cao.
Một hệ sinh thái NVIDIA AI đang rộng mở
Hơn mười công ty đã gửi kết quả trên nền tảng NVIDIA ở vòng này. Công việc của họ cho thấy NVIDIA AI được hỗ trợ bởi hệ sinh thái rộng lớn nhất của ngành về Machine Learning.
Các bài đệ trình đến từ các nhà sản xuất hệ thống lớn bao gồm ASUS, Dell Technologies, GIGABYTE, Lenovo và QCT. Hơn 30 trong số đó chạy trên các GPU H100.
Mức độ tham gia này cho phép người dùng biết rằng họ có thể đạt được hiệu suất tuyệt vời với NVIDIA AI cả trên cloud và trên các máy chủ chạy trong trung tâm dữ liệu của riêng họ.
Hiệu năng trên mọi workload
Các đối tác trong hệ sinh thái NVIDIA tham gia MLPerf vì họ biết đây là một công cụ có giá trị để khách hàng đánh giá các nhà cung cấp và các nền tảng AI.
Điểm chuẩn benchmark gồm các workload mà người dùng quan tâm – Thị giác máy tính, dịch thuật và học tăng cường (Reinforcement Learning), bên cạnh các hệ thống gợi ý và Generative AI.
Người dùng có thể dựa vào những kết quả MLPerf để đưa ra quyết định mua hàng sáng suốt vì các bài test đều minh bạch và khách quan. Các điểm chuẩn nhận được sự hỗ trợ từ một nhóm lớn bao gồm Arm, Baidu, Facebook AI, Google, Harvard, Intel, Microsoft, Stanford và Đại học Toronto.
Kết quả MLPerf hiện có sẵn trên các nền tảng H100, L4 và NVIDIA Jetson qua các điểm benchmark đào tạo, suy luận AI và HPC. NVIDIA cũng sẽ gửi đệ trình cho các hệ thống Grace Hopper trong các vòng MLPerf trong tương lai.
Tầm quan trọng của hiệu quả sử dụng năng lượng
Khi các yêu cầu về hiệu suất của AI tăng lên, điều cần thiết là gia tăng tính hiệu quả của việc đạt được hiệu suất đó. Đó là những gì điện toán tăng tốc (Accelerated Computing) đang làm.
Các trung tâm dữ liệu được tăng tốc bằng GPU NVIDIA sử dụng ít node máy chủ hơn, vì vậy chúng sử dụng ít không gian rack và năng lượng hơn. Ngoài ra, kết nối mạng được tăng tốc giúp nâng cao hiệu quả và hiệu suất, đồng thời việc tối ưu hóa phần mềm liên tục mang lại lợi ích gấp nhiều lần trên cùng một phần cứng.
Hiệu suất tiết kiệm năng lượng cũng là cần thiết đối với doanh nghiệp và cả hành tinh của chúng ta. Hiệu suất tăng lên có thể rút ngắn thời gian đưa sản phẩm ra thị trường và cho phép các tổ chức xây dựng các ứng dụng nâng cao hơn.
Tiết kiệm năng lượng cũng giúp giảm chi phí vì các trung tâm dữ liệu được tăng tốc bằng NVIDIA GPU sử dụng ít node máy chủ hơn. Vì lẽ đó, 22 trong số 30 siêu máy tính hàng đầu trong danh sách Green500 mới nhất có sự xuất hiện của NVIDIA.
Phần mềm AI sẵn sàng cho tất cả
NVIDIA AI Enterprise, lớp software bên trong nền tảng NVIDIA AI, cho phép tối ưu hóa hiệu suất trên toàn bộ hạ tầng điện toán tăng tốc cho AI. Phần mềm đi kèm với các gói hỗ trợ, tính bảo mật và độ tin cậy cấp độ doanh nghiệp cần thiết để chạy AI trong trung tâm dữ liệu ngay tại công ty.
Tất cả phần mềm được sử dụng cho các bài test này đều có sẵn từ kho lưu trữ MLPerf, vì vậy hầu như bất kỳ ai cũng có thể nhận được những kết quả cấp thế giới này.
Việc tối ưu hóa liên tục được đưa vào các container có sẵn trên NGC, catalog của NVIDIA dành cho phần mềm được tăng tốc bởi GPU.
Đọc thêm bài viết này để tìm hiểu sâu hơn về các tối ưu hóa thúc đẩy hiệu suất và hiệu quả MLPerf của NVIDIA.
Theo NVIDIA
Bài viết liên quan
- LLM: Lịch sử và tương lai của các mô hình ngôn ngữ lớn
- Hướng đến tương lai: Generative AI dành cho các giám đốc điều hành
- Xây dựng mô hình ngôn ngữ lớn (LLM) riêng tư, an toàn trên mạng 5G riêng
- HPE và NVIDIA công bố ‘NVIDIA AI Computing by HPE’ để thúc đẩy cuộc cách mạng AI tạo sinh
- Giải mã hiệu suất AI trên PC và Workstation RTX AI
- NVIDIA bắt đầu chứng nhận cho các loại hệ thống mới sẵn sàng cho Generative AI