TensorRT Inference Server: NVIDIA TensorRT Inference Server cung cấp giải pháp inference trên nền cloud được tối ưu hóa cho GPU NVIDIA. Là một máy chủ cung cấp dịch vụ suy luận (inference) qua HTTP hoặc gRPC endpoint, cho phép các máy khách có thể gởi yêu cầu inference từ xa cho bất kỳ mô hình nào được máy chủ quản lý. TRTIS cung cấp các tính năng sau:
Hỗ trợ multiple framework. Máy chủ có thể quản lý số lượng bất kỳ các mô hình (bị giới hạn bởi tài nguyên lưu trữ và bộ nhớ của hệ thống). Hỗ trợ các định dạng mô hình TensorRT, TensorFlow GraphDef, TensorFlow SavedModel và Caffe2 NetDef.
Nó cũng hỗ trợ các mô hình tích hợp TensorFlow-TensorRT. Hỗ trợ đa GPU. Máy chủ có thể phân bổ việc inference trên tất cả các GPU của hệ thống.
Hỗ trợ triển khai mô hình cùng lúc. Nhiều mô hình (hoặc nhiều phiên bản của cùng một mô hình) có thể chạy đồng thời trên cùng một GPU.
Hỗ trợ batch. Đối với các mô hình hỗ trợ batch, máy chủ có thể chấp nhận các yêu cầu cho một loạt các đầu vào và phản hồi với lô đầu ra tương ứng. Máy chủ cũng hỗ trợ tạo batch động, trong đó các yêu cầu suy luận riêng lẻ được kết hợp động với nhau để cải thiện thông lượng suy luận. Hoạt động dynamic batching mang tính mở cho khách hàng yêu cầu suy luận.
Các kho lưu trữ mô hình có thể nằm trên hệ thống file có thể truy cập cục bộ (ví dụ: NFS) hoặc trong Google Cloud Storage.
Tính sẵn sàng và sức khỏe của các endpoint phù hợp cho tất cả các framework cho orchestration hay deployment. Các chỉ số cho thấy sự khai thác GPU, thông lượng và độ trễ của máy chủ.
Bài viết liên quan
- NVIDIA NGC‑ready Low‑latency Edge AI: Giải pháp cho Retail, Manufacturing và Smart Cities
- So sánh sức mạnh của máy tính AI DGX Spark với các card GPU máy trạm chuyên nghiệp của NVIDIA
- Từ Orin đến Thor: Bước nhảy vọt kiến trúc của NVIDIA JetPack 7.0 và tương lai của robot hình người
- Tại sao gọi NVIDIA DGX Spark là Siêu máy tính AI cá nhân?
- Cơ chế quản lý bộ nhớ trên các nền tảng phần cứng nhất quán – Hardware-coherent
- Kiến trúc NVIDIA Blackwell với GB200 NVL72: Định nghĩa lại điện toán AI cấp độ Exascale


