GPU NVIDIA H100 và L4 đã đưa AI tạo sinh (Generative AI) và tất cả các workload khác lên một cấp độ mới trong các bài kiểm tra điểm benchmark MLPerf mới nhất, trong khi Jetson AGX Orin cho thấy mức tăng hiệu suất và hiệu quả xử lý đáng kể.
MLPerf vẫn là phép đo chính xác về hiệu suất AI dưới dạng điểm benchmark độc lập của bên thứ ba. Nền tảng AI của NVIDIA đã liên tục thể hiện sự dẫn đầu trong cả đào tạo và suy luận kể từ lúc MLPerf mới được đưa ra, bao gồm cả điểm benchmark MLPerf Inference 3.0 được phát hành ngày hôm nay.
“Ba năm trước, khi chúng tôi giới thiệu A100, thế giới AI đã bị chi phối bởi Thị giác máy tính (Computer Vision). Và bây giờ Generative AI đã xuất hiện”, Jensen Huang, Người sáng lập kiêm Giám đốc điều hành của NVIDIA cho biết.
“Đây chính là lý do tại sao chúng tôi xây dựng Hopper, được tối ưu hóa đặc biệt cho GPT với Transformer Engine. Điểm nổi bật của MLPerf 3.0 hiện nay là Hopper mang lại hiệu suất cao gấp 4 lần so với A100.
“Cấp độ tiếp theo của Generative AI yêu cầu hạ tầng AI mới để đào tạo các mô hình ngôn ngữ lớn (Large Languague Models) với hiệu quả năng lượng cao. Khách hàng đang mở rộng Hopper trên quy mô lớn, xây dựng hạ tầng AI với hàng chục nghìn GPU Hopper được kết nối bởi NVIDIA NVLink và InfiniBand.
“Ngành công nghiệp đang hoạt động liên tục để đạt được những tiến bộ mới trong Generative AI an toàn và đáng tin cậy. Và Hopper đang tạo điều kiện cho công việc thiết yếu này”, ông ấy nói thêm.
Những kết quả MLPerf mới nhất cho thấy NVIDIA đưa khả năng suy luận của AI lên các mức hiệu suất và hiệu quả mới từ cloud cho đến biên.
Cụ thể, các GPU NVIDIA H100 Tensor Core chạy trong các hệ thống DGX H100 mang lại hiệu suất cao nhất trong mọi thử nghiệm về suy luận AI, công việc của việc vận hành các mạng nơ-ron nhân tạo (Neural Networks) trong sản xuất. Nhờ tối ưu hóa phần mềm, GPU đã mang lại hiệu suất tăng tới 54% kể từ khi ra mắt vào tháng 9.
Trong lĩnh vực chăm sóc sức khỏe, các GPU H100 mang lại hiệu suất tăng 31% kể từ tháng 9 trên 3D-UNet, điểm chuẩn MLPerf cho hình ảnh y khoa.
Được hỗ trợ bởi Transformer Engine của nó, GPU H100, dựa trên kiến trúc Hopper, đã xuất sắc trên BERT, một mô hình ngôn ngữ lớn dựa trên transformer đã mở đường cho việc sử dụng rộng rãi Generative AI ngày nay.
Generative AI cho phép người dùng nhanh chóng tạo văn bản, hình ảnh, mô hình 3D,… Đó là khả năng mà các công ty từ mới thành lập cho đến nhà cung cấp dịch vụ cloud đang nhanh chóng áp dụng để kích hoạt các mô hình kinh doanh mới và tăng tốc các mô hình kinh doanh hiện có.
Hàng trăm triệu người hiện đang sử dụng các công cụ Generative AI như ChatGPT – cũng là một Transformer Model – mong đợi có được sự phản hồi ngay tức thì.
Tại khoảnh khắc iPhone của AI này, hiệu suất dựa trên suy luận là rất quan trọng. Học sâu (Deep Learning) hiện đang được triển khai gần như ở khắp mọi nơi, thúc đẩy nhu cầu to lớn về hiệu suất suy luận từ công trường cho đến các hệ thống đề xuất trực tuyến .
GPU L4 tăng tốc vượt trội
GPU NVIDIA L4 Tensor Core xuất hiện lần đầu trong các thử nghiệm MLPerf với tốc độ hơn 3 lần so với GPU T4 thế hệ trước. Được đóng gói trong một form factor low-profile, những bộ tăng tốc này được thiết kế để mang lại thông lượng cao và độ trễ thấp ở hầu hết mọi máy chủ.
Những GPU L4 chạy tất cả các workload MLPerf. Nhờ hỗ trợ định dạng FP8 chính, kết quả của chúng đặc biệt ấn tượng trên mô hình BERT đòi hỏi hiệu suất cao.
Ngoài hiệu suất AI xuất sắc, GPU L4 còn mang đến khả năng decode hình ảnh nhanh hơn tới 10 lần, xử lý video nhanh hơn tới 3.2 lần và đồ họa cũng như hiệu suất render nhanh hơn gấp 4 lần.
Được công bố hai tuần trước tại GTC, các bộ tăng tốc này đã có sẵn từ các nhà sản xuất hệ thống lớn và nhà cung cấp dịch vụ cloud. GPU L4 là sự bổ sung mới nhất cho danh mục nền tảng suy luận AI của NVIDIA được ra mắt tại GTC.
Software và network Tỏa sáng trong Thử nghiệm Hệ thống
Nền tảng AI full-stack của NVIDIA đã cho thấy khả năng dẫn đầu của mình trong một thử nghiệm MLPerf mới.
Cái gọi là điểm chuẩn phân chia mạng, truyền dữ liệu đến một máy chủ suy luận ở xa. Nó phản ánh kịch bản phổ biến của người dùng doanh nghiệp chạy các công việc AI trên cloud với dữ liệu được lưu trữ phía sau tường lửa của công ty.
Trên BERT, các hệ thống NVIDIA DGX A100 ở xa đã cung cấp tới 96% hiệu suất cục bộ tối đa của chúng, bị chậm lại một phần vì chúng cần đợi CPU hoàn thành một số tác vụ. Trong bài test ResNet-50 về Thị giác máy tính, chỉ được xử lý bởi các GPU, chúng đạt hoàn toàn 100%.
Cả hai kết quả này phần lớn nhờ vào kết NVIDIA Quantum Infiniband Networking, NVIDIA ConnectX SmartNICs và phần mềm như NVIDIA GPUDirect.
Orin cho thấy mức tăng gấp 3.2 lần ở biên
Một cách riêng biệt, system-on-module NVIDIA Jetson AGX Orin mang lại mức tăng tới 63% về hiệu suất năng lượng và 81% về hiệu suất so với những kết quả của nó một năm trước. Jetson AGX Orin cung cấp khả năng suy luận khi cần AI trong không gian hạn chế ở mức điện năng thấp, kể cả trên các hệ thống chạy bằng pin.
Đối với các ứng dụng cần các mô-đun thậm chí còn nhỏ hơn, tiêu thụ ít điện năng hơn, Jetson Orin NX 16G đã tỏa sáng khi ra mắt trong các điểm chuẩn. Nó mang lại hiệu suất gấp tới 3.2 lần so với bộ xử lý Jetson Xavier NX thế hệ trước.
Hệ sinh thái NVIDIA AI rộng lớn
Những kết quả MLPerf cho thấy NVIDIA AI được hỗ trợ bởi hệ sinh thái rộng nhất trong ngành về Học máy (Machine Learning).
Mười công ty đã gửi những kết quả trên nền tảng NVIDIA trong vòng này. Họ đến từ dịch vụ cloud Microsoft Azure và các nhà sản xuất hệ thống bao gồm ASUS, Dell Technologies, GIGABYTE, H3C, Lenovo, Nettrix, Supermicro và xFusion.
Công việc của họ cho thấy người dùng có thể đạt được hiệu suất tuyệt vời với NVIDIA AI cả trên cloud và trong các máy chủ chạy trong trung tâm dữ liệu của riêng họ.
Các đối tác của NVIDIA tham gia vào MLPerf vì họ biết đây là một công cụ có giá trị để khách hàng đánh giá các nhà cung cấp và các nền tảng AI. Những kết quả trong vòng mới nhất chứng minh rằng hiệu suất mà họ mang lại ngày hôm nay sẽ tăng lên cùng với nền tảng NVIDIA.
Người dùng cần hiệu suất linh hoạt
NVIDIA AI là nền tảng duy nhất chạy tất cả các kịch bản và tải công việc suy luận MLPerf trong trung tâm dữ liệu và điện toán biên. Hiệu suất linh hoạt và hiệu quả của nó giúp người dùng trở thành những người chiến thắng thực sự.
Các ứng dụng trong thế giới thực thường sử dụng nhiều loại mạng nơ-ron nhân tạo khác nhau, thường cần đưa ra câu trả lời trong thời gian thực.
Ví dụ: một ứng dụng AI có thể cần hiểu yêu cầu được nói của người dùng, phân loại hình ảnh, đưa ra đề xuất và sau đó đưa ra phản hồi dưới dạng tin nhắn được nói bằng giọng nói của con người. Mỗi bước yêu cầu một loại mô hình AI khác nhau.
Điểm chuẩn MLPerf bao gồm các workload AI này và một số workload phổ biến khác. Đó là lý do tại sao các thử nghiệm đảm bảo những người ra quyết định IT sẽ nhận được hiệu suất đáng tin cậy và linh hoạt để triển khai.
Người dùng có thể dựa vào những kết quả MLPerf để đưa ra quyết định mua hàng sáng suốt vì các bài test đều minh bạch và khách quan. Các điểm chuẩn nhận được sự hỗ trợ từ một nhóm rộng lớn bao gồm Arm, Baidu, Facebook AI, Google, Harvard, Intel, Microsoft, Stanford và Đại học Toronto.
Phần mềm bạn có thể sử dụng
Lớp phần mềm của nền tảng NVIDIA AI, NVIDIA AI Enterprise, đảm bảo người dùng có được hiệu suất tối ưu từ các khoản đầu tư cơ sở hạ tầng cũng như hỗ trợ, bảo mật và độ tin cậy cấp doanh nghiệp cần thiết để chạy AI trong trung tâm dữ liệu của công ty.
Tất cả phần mềm được sử dụng cho các bài test này đều có sẵn từ MLPerf repository, vì vậy bất kỳ ai cũng có thể nhận được những kết quả đẳng cấp thế giới này.
Tối ưu hóa liên tục được đặt vào các container có sẵn trên NGC – catalog của NVIDIA dành cho phần mềm được tăng tốc bởi GPU. Catalog này host NVIDIA TensorRT, được sử dụng bởi mọi lượt gửi trong vòng này để tối ưu hóa khả năng suy luận của AI.
Đọc blog kỹ thuật này để tìm hiểu sâu hơn về các tối ưu hóa thúc đẩy hiệu suất và hiệu quả MLPerf của NVIDIA.
Bài viết liên quan