NVIDIA Triton: Triển khai, chạy và tăng quy mô AI cho mọi ứng dụng

Chạy suy luận trên các mô hình Học máy (ML) hoặc Học sâu (DL) đã được đào tạo từ bất kỳ framework nào trên bất kỳ bộ xử lý nào – GPU, CPU hay các loại khác – với NVIDIA Triton Inference Server. Là một phần của nền tảng NVIDIA AI và được bao gồm trong bộ giải pháp NVIDIA AI Enterprise, Triton Inference Server là phần mềm nguồn mở, giúp tiêu chuẩn hóa việc triển khai và chạy các mô hình AI trên mọi workload.

 

Hỗ trợ tất cả các framework đào tạo và suy luận

Triển khai các mô hình AI trên bất kỳ framework chính nào với Triton Inference Server – bao gồm TensorFlow, PyTorch, Python, ONNX, NVIDIA TensorRT, RAPIDS cuML, XGBoost, scikit-learn RandomForest, OpenVINO, C++ tùy chỉnh,…

Suy luận hiệu suất cao trên mọi nền tảng

Tối đa hóa thông lượng và mức sử dụng với tính năng batching động, thực thi đồng thời, cấu hình tối ưu cũng như truyền phát âm thanh và video. Triton Inference Server hỗ trợ tất cả NVIDIA GPU, x86 và Arm CPU cũng như AWS Inferentia.

Mã nguồn mở và được thiết kế cho DevOps và MLOps

Tích hợp Triton Inference Server vào các giải pháp DevOps và MLOps như Kubernetes để mở rộng quy mô và Prometheus để giám sát. Nó cũng có thể được sử dụng trong tất cả các nền tảng AI và MLOps tại chỗ và đám mây lớn.

Khả năng quản lý, tính ổn định của API và bảo mật cấp doanh nghiệp

NVIDIA AI Enterprise, bao gồm NVIDIA Triton Inference Server và Triton Management Service (Dịch vụ quản lý), là một nền tảng phần mềm AI an toàn, ở cấp độ sản xuất được thiết kế để tăng tốc thời gian tạo ra giá trị với sự hỗ trợ, bảo mật và tính ổn định của API.

Mua NVIDIA AI Enterprise với Triton dành cho triển khai sản xuất

Mua NVIDIA AI Enterprise, bao gồm NVIDIA Triton Inference Server và Triton Management Service dành cho suy luận ở cấp độ sản xuất.

→ Đăng ký ngay để nhận NVIDIA AI Enterprise Evaluation License trong 90 ngày

→ Đăng ký trải nghiệm thử Triton Inference Server trên NVIDIA LaunchPad

Liên hệ với chúng tôi để tìm hiểu thêm về việc mua Triton

Tải xuống Container và Code để phát triển

Các container Triton Inference Server có sẵn trên NVIDIA NGC và dưới dạng open-source code trên GitHub.

→ Tải xuống trên NGC

→ Truy cập open-source code trên GitHub

→ Khám phá thêm tài nguyên để phát triển

Tự động hóa việc triển khai nhiều instance Triton Inference Server trong Kubernetes với khả năng điều phối mô hình tiết kiệm tài nguyên trên GPU và CPU.

Tìm hiểu thêm

 

Suy luận Mô hình ngôn ngữ lớn

TensorRT-LLM là một thư viện mã nguồn mở để xác định, tối ưu hóa và thực thi các mô hình ngôn ngữ lớn (LLMs) dành cho suy luận trong sản xuất. Nó duy trì chức năng cốt lõi của FasterTransformer, kết hợp với Trình biên dịch học sâu của TensorRT, trong API Python nguồn mở để nhanh chóng hỗ trợ các mô hình và tùy chỉnh mới.

→ Tìm hiểu thêm về TensorRT-LLM

Các tập hợp mô hình

Nhiều tác vụ AI hiện đại yêu cầu thực thi nhiều mô hình, thường có các bước xử lý trước và sau cho mỗi truy vấn. Triton hỗ trợ các tập hợp (ensembles) và pipeline mô hình, có thể thực thi các phần khác nhau của tập hợp trên CPU hoặc GPU và cho phép nhiều framework bên trong tập hợp.

Tìm hiểu thêm về Model Ensembles

Tree-Based Models

Phần phụ trợ của Forest Inference Library (FIL) trong Triton cung cấp hỗ trợ suy luận hiệu suất cao của các tree-based model với khả năng giải thích (giá trị SHAP) trên CPU và GPU. Nó hỗ trợ các mô hình từ XGBoost, LightGBM, scikit-learn RandomForest, RAPIDS cuML RandomForest và các mô hình khác ở định dạng Treelite.

Tìm hiểu thêm về Tree-Based Models

NVIDIA PyTriton

PyTriton cung cấp một giao diện đơn giản cho phép các nhà phát triển Python sử dụng Triton để phục vụ mọi thứ – mô hình, hàm xử lý đơn giản hoặc toàn bộ quy trình suy luận. Hỗ trợ gốc này dành cho Triton bằng Python cho phép tạo mẫu và thử nghiệm nhanh chóng các mô hình Học máy với hiệu suất và hiệu quả. Chỉ một dòng code mang đến Triton, cung cấp các lợi ích như batching động, thực thi mô hình đồng thời và hỗ trợ GPU và CPU. Điều này giúp loại bỏ nhu cầu thiết lập kho lưu trữ mô hình và chuyển đổi định dạng mô hình. Pipeline code suy luận hiện có có thể được sử dụng mà không cần sửa đổi.

Tìm hiểu thêm về PyTriton

NVIDIA Triton Model Analyzer

Trình phân tích mô hình Triton là một công cụ tự động đánh giá các cấu hình triển khai mô hình trong Triton Inference Server, chẳng hạn như kích thước batch, độ chính xác và các instance thực thi đồng thời trên bộ xử lý đích. Nó giúp chọn cấu hình tối ưu để đáp ứng các ràng buộc về chất lượng dịch vụ (QoS) của ứng dụng – chẳng hạn như các yêu cầu về độ trễ, thông lượng và bộ nhớ – đồng thời giảm thời gian cần thiết để tìm cấu hình tối ưu. Công cụ này cũng hỗ trợ các tập hợp mô hình và phân tích đa mô hình.

Tìm hiểu thêm về Triton Model Analyzer

Amazon

Khám phá cách Amazon cải thiện sự hài lòng của khách hàng với NVIDIA AI bằng việc tăng tốc suy luận lên gấp 5 lần.

→ Tìm hiểu thêm

American Express

Tìm hiểu cách American Express cải thiện khả năng phát hiện gian lận bằng việc phân tích hàng chục triệu giao dịch hàng ngày nhanh hơn 50 lần.

→ Tìm hiểu thêm

Khám phá cách Siemens Energy tăng cường kiểm tra bằng việc cung cấp khả năng giám sát từ xa dựa trên AI để phát hiện rò rỉ, tiếng ồn bất thường,…

→ Tìm hiểu thêm

Xem cách Microsoft Teams sử dụng Triton Inference Server để tối ưu hóa phụ đề và phiên âm trực tiếp bằng nhiều ngôn ngữ với độ trễ rất thấp.

→ Tìm hiểu thêm

NIO

Xem cách NIO đạt được quy trình suy luận có độ trễ thấp bằng cách tích hợp NVIDIA Triton Inference Server vào quy trình suy luận lái xe tự động của họ.

→ Tìm hiểu thêm

Triton là lựa chọn hàng đầu cho suy luận hiệu suất cao và có thể mở rộng. Nó có sẵn trong Alibaba CloudAmazon Elastic Kubernetes Service (EKS)Amazon Elastic Container Service (ECS)Amazon SageMakerGoogle Kubernetes Engine (GKE)Google Vertex AIHPE EzmeralMicrosoft Azure Kubernetes (AKS)Azure Machine Learning và Oracle Cloud Infrastucture Data Science Platform.

____
Bài viết liên quan
Góp ý / Liên hệ tác giả