NVIDIA Dynamo tăng cường hiệu suất suy luận trong khi giảm chi phí cho việc mở rộng quy mô tính toán giai đoạn thử nghiệm; Khả năng suy luận tối ưu trên NVIDIA Blackwell giúp tăng thông lượng lên 30 lần trên DeepSeek-R1.
NVIDIA vừa ra mắt NVIDIA Dynamo, một phần mềm suy luận nguồn mở giúp tăng tốc và mở rộng quy mô các mô hình suy luận AI trong các AI Factory với chi phí thấp nhất và hiệu quả cao nhất.
Việc sắp xếp và phối hợp hiệu quả các yêu cầu suy luận AI trên một “hạm đội” GPU quy mô lớn là rất quan trọng để đảm bảo các nhà máy AI hoạt động với chi phí thấp nhất có thể nhằm tối đa hóa lợi tức token tạo ra.
Khi lý luận AI trở nên phổ biến, mọi mô hình AI sẽ tạo ra hàng chục nghìn token được sử dụng để “suy nghĩ” với mọi lệnh prompt. Việc tăng hiệu suất suy luận trong khi liên tục giảm chi phí suy luận sẽ đẩy nhanh tăng trưởng và thúc đẩy cơ hội gia tăng doanh thu cho các nhà cung cấp dịch vụ.
NVIDIA Dynamo, phiên bản kế nhiệm của NVIDIA Triton Inference Server, là phần mềm phục vụ suy luận AI mới được thiết kế để tối đa hóa việc tạo ra lợi tức token cho các nhà máy AI triển khai các mô hình AI lý luận. Nó sắp xếp và tăng tốc các hoạt động suy luận trên hàng nghìn GPU và sử dụng dịch vụ phân tách để tách các giai đoạn xử lý và tạo ra các mô hình ngôn ngữ lớn (LLM) trên các GPU khác nhau. Điều này cho phép mỗi giai đoạn được tối ưu hóa độc lập cho các nhu cầu cụ thể của nó và đảm bảo sử dụng tài nguyên GPU tối đa.
Jensen Huang, nhà sáng lập kiêm CEO của NVIDIA cho biết: “Các ngành công nghiệp trên toàn thế giới đang đào tạo các mô hình AI để suy nghĩ và học theo nhiều cách khác nhau, khiến chúng trở nên tinh vi hơn theo thời gian”. “Để tạo ra tương lai của AI suy luận tùy chỉnh, NVIDIA Dynamo giúp phục vụ các mô hình này ở quy mô lớn, thúc đẩy tiết kiệm chi phí và hiệu quả trên khắp các nhà máy AI”.
Sử dụng cùng số lượng GPU, Dynamo tăng gấp đôi hiệu suất và doanh thu của các nhà máy AI phục vụ các mô hình Llama trên nền tảng NVIDIA Hopper ngày nay. Khi chạy mô hình DeepSeek-R1 trên một cụm lớn các rack GB200 NVL72, các tối ưu hóa suy luận thông minh của NVIDIA Dynamo cũng tăng số lượng token được tạo ra lên hơn 30 lần trên mỗi GPU.
Để đạt được những cải tiến về hiệu suất suy luận này, NVIDIA Dynamo kết hợp các tính năng cho phép tăng thông lượng và giảm chi phí. Nó có thể thêm, xóa và phân bổ lại GPU một cách linh hoạt để đáp ứng các khối lượng và loại yêu cầu luôn biến đổi, cũng như xác định chính xác các GPU cụ thể trong các cụm lớn có thể giảm thiểu tính toán phản hồi và định tuyến truy vấn. Nó cũng có thể chuyển dữ liệu suy luận sang các thiết bị lưu trữ và bộ nhớ giá cả phải chăng hơn và nhanh chóng truy xuất chúng khi cần, giảm thiểu chi phí suy luận.
NVIDIA Dynamo hoàn toàn là mã nguồn mở và hỗ trợ PyTorch, SGLang, NVIDIA TensorRT-LLM và vLLM để cho phép các doanh nghiệp, công ty khởi nghiệp và nhà nghiên cứu phát triển và tối ưu hóa các cách thức phục vụ các mô hình AI trên suy luận phân tách. Nó sẽ cho phép người dùng đẩy nhanh việc áp dụng suy luận AI, bao gồm tại AWS, Cohere, CoreWeave, Dell, Fireworks, Google Cloud, Lambda, Meta, Microsoft Azure, Nebius, NetApp, OCI, Perplexity, Together AI và VAST.
Tăng tốc suy luận
Công nghệ NVIDIA Dynamo sẽ ánh xạ kiến thức mà các hệ thống suy luận lưu giữ trong bộ nhớ từ việc phục vụ các yêu cầu trước đó — được gọi là KV Cache — trên hàng nghìn GPU.
Sau đó, nó sẽ định tuyến các yêu cầu suy luận mới đến các GPU có kiến thức phù hợp nhất, tránh việc tính toán lại tốn kém và giải phóng GPU để phản hồi các yêu cầu mới đến.
“Để xử lý hàng trăm triệu yêu cầu hàng tháng, chúng tôi dựa vào GPU NVIDIA và phần mềm suy luận để cung cấp hiệu suất, độ tin cậy và quy mô mà doanh nghiệp và người dùng của chúng tôi yêu cầu”, Denis Yarats, giám đốc công nghệ của Perplexity AI cho biết. “Chúng tôi mong muốn tận dụng Dynamo, với khả năng phục vụ phân tán được cải tiến, để thúc đẩy hiệu quả phục vụ suy luận thậm chí còn cao hơn và đáp ứng nhu cầu tính toán của các mô hình lý luận AI mới”.
Agentic AI
Nhà cung cấp Cohere đang có kế hoạch tăng cường khả năng của Agentic AI trong loạt mô hình Command bằng NVIDIA Dynamo.
Saurabh Baji, phó chủ tịch cấp cao phụ trách kỹ thuật tại Cohere cho biết: “Việc mở rộng các mô hình AI tiên tiến đòi hỏi phải có lịch trình đa GPU tinh vi, sự phối hợp liền mạch và các thư viện giao tiếp có độ trễ thấp giúp chuyển ngữ cảnh lý luận liền mạch qua bộ nhớ và lưu trữ”. “Chúng tôi hy vọng NVIDIA Dynamo sẽ giúp chúng tôi mang đến trải nghiệm người dùng hàng đầu cho khách hàng doanh nghiệp của mình”.
Disaggregated Serving
Nền tảng suy luận NVIDIA Dynamo cũng hỗ trợ khả năng phục vụ phân tách (disaggregated serving), nền tảng này chỉ định các giai đoạn tính toán khác nhau của LLM — bao gồm xây dựng sự hiểu biết về truy vấn của người dùng và sau đó tạo ra phản hồi tốt nhất — cho các GPU khác nhau. Phương pháp này lý tưởng cho các mô hình lý luận như họ mô hình NVIDIA Llama Nemotron mới, sử dụng các kỹ thuật suy luận tiên tiến để cải thiện sự hiểu biết theo ngữ cảnh và tạo ra phản hồi. Disaggregated serving cho phép tinh chỉnh và phân bổ tài nguyên cho từng giai đoạn một cách độc lập, cải thiện thông lượng và cung cấp phản hồi nhanh hơn cho người dùng.
Together AI, AI Acceleration Cloud, đang tìm cách tích hợp Together Inference Engine độc quyền của mình với NVIDIA Dynamo để cho phép mở rộng quy mô khối lượng công việc suy luận trên các nút GPU một cách liền mạch. Điều này cũng cho phép Together AI giải quyết các nút nghẽn lưu lượng ở nhiều giai đoạn khác nhau của đường ống mô hình một cách năng động.
Ce Zhang, giám đốc công nghệ của Together AI cho biết: “Việc mở rộng các mô hình suy luận một cách hiệu quả về mặt chi phí đòi hỏi các kỹ thuật suy luận tiên tiến mới, bao gồm phục vụ phân tách và định tuyến nhận biết ngữ cảnh”. “Together AI cung cấp hiệu suất hàng đầu trong ngành bằng cách sử dụng công cụ suy luận độc quyền của chúng tôi. Tính mở và tính mô-đun của NVIDIA Dynamo sẽ cho phép chúng tôi dễ dàng cắm các thành phần của nó vào công cụ của mình để phục vụ nhiều yêu cầu hơn trong khi tối ưu hóa việc sử dụng tài nguyên — tối đa hóa khoản đầu tư điện toán được tăng tốc của chúng tôi. Chúng tôi rất vui mừng khi tận dụng các khả năng đột phá của nền tảng này để mang các mô hình suy luận nguồn mở đến với người dùng của chúng tôi một cách hiệu quả về mặt chi phí”.
Các thành phần của NVIDIA Dynamo
NVIDIA Dynamo bao gồm bốn cải tiến chính giúp giảm chi phí phục vụ suy luận và cải thiện trải nghiệm của người dùng:
- GPU Planner: Công cụ lập kế hoạch thêm và xóa GPU một cách linh hoạt để điều chỉnh theo nhu cầu thay đổi của người dùng, tránh tình trạng cung cấp thừa hoặc thiếu (over-provisioning hoặc under-provisioning) GPU.
- Bộ định tuyến thông minh: Bộ định tuyến nhận biết LLM chuyển hướng các yêu cầu qua các nhóm GPU lớn để giảm thiểu việc tính toán lại tốn kém của GPU đối với các yêu cầu lặp lại hoặc chồng chéo — giải phóng GPU để phản hồi các yêu cầu mới đến.
- Thư viện truyền thông độ trễ thấp: Một thư viện được tối ưu hóa suy luận hỗ trợ truyền thông GPU-to-GPU tiên tiến và tóm tắt sự phức tạp của trao đổi dữ liệu trên các thiết bị không đồng nhất, giúp tăng tốc độ truyền dữ liệu.
- Trình quản lý bộ nhớ: Một công cụ thông minh tải lại và dỡ dữ liệu suy luận đến và đi từ các thiết bị lưu trữ và bộ nhớ giá rẻ mà không ảnh hưởng đến trải nghiệm của người dùng.
NVIDIA Dynamo sẽ được cung cấp trong các vi dịch vụ NVIDIA NIM và được hỗ trợ trong bản phát hành trong tương lai bởi nền tảng phần mềm NVIDIA AI Enterprise với tính bảo mật, hỗ trợ và ổn định ở cấp độ sản xuất.
Bài viết liên quan
- NVIDIA DGX Spark: Siêu máy tính AI ngay trên bàn làm việc của bạn
- NVIDIA Spectrum-X Photonics, bộ chuyển mạch quang tử giúp mở rộng AI Factory lên hàng triệu GPU
- AI Factory thế hệ mới với hệ thống DGX SuperPOD dựa trên Blackwell Ultra
- NVIDIA Blackwell Ultra: Mở ra kỷ nguyên Trí Tuệ Nhân Tạo lý luận
- NVIDIA và các nhà cung cấp lưu trữ hàng đầu tiết lộ hạ tầng doanh nghiệp mới cho thời đại AI