TensorRT Inference Server: NVIDIA TensorRT Inference Server cung cấp giải pháp inference trên nền cloud được tối ưu hóa cho GPU NVIDIA. Là một máy chủ cung cấp dịch vụ suy luận (inference) qua HTTP hoặc gRPC endpoint, cho phép các máy khách có thể gởi yêu cầu inference từ xa cho bất kỳ mô hình nào được máy chủ quản lý. TRTIS cung cấp các tính năng sau:
Hỗ trợ multiple framework. Máy chủ có thể quản lý số lượng bất kỳ các mô hình (bị giới hạn bởi tài nguyên lưu trữ và bộ nhớ của hệ thống). Hỗ trợ các định dạng mô hình TensorRT, TensorFlow GraphDef, TensorFlow SavedModel và Caffe2 NetDef.
Nó cũng hỗ trợ các mô hình tích hợp TensorFlow-TensorRT. Hỗ trợ đa GPU. Máy chủ có thể phân bổ việc inference trên tất cả các GPU của hệ thống.
Hỗ trợ triển khai mô hình cùng lúc. Nhiều mô hình (hoặc nhiều phiên bản của cùng một mô hình) có thể chạy đồng thời trên cùng một GPU.
Hỗ trợ batch. Đối với các mô hình hỗ trợ batch, máy chủ có thể chấp nhận các yêu cầu cho một loạt các đầu vào và phản hồi với lô đầu ra tương ứng. Máy chủ cũng hỗ trợ tạo batch động, trong đó các yêu cầu suy luận riêng lẻ được kết hợp động với nhau để cải thiện thông lượng suy luận. Hoạt động dynamic batching mang tính mở cho khách hàng yêu cầu suy luận.
Các kho lưu trữ mô hình có thể nằm trên hệ thống file có thể truy cập cục bộ (ví dụ: NFS) hoặc trong Google Cloud Storage.
Tính sẵn sàng và sức khỏe của các endpoint phù hợp cho tất cả các framework cho orchestration hay deployment. Các chỉ số cho thấy sự khai thác GPU, thông lượng và độ trễ của máy chủ.
Bài viết liên quan
- GPUDirect RDMA là gì?
- GPUDirect Storage là gì?
- AI trong ngành Logistics: Những lợi ích chính và ứng dụng
- Máy chủ tăng tốc cho AI thúc đẩy tăng trưởng chi tiêu cho trung tâm dữ liệu
- Xây dựng hệ thống dữ liệu hiệu suất cao cho AI với VAST Data Platform
- So sánh các GPU Tensor Core của NVIDIA: B200, B100, H200, H100, A100