TensorRT Inference Server: NVIDIA TensorRT Inference Server cung cấp giải pháp inference trên nền cloud được tối ưu hóa cho GPU NVIDIA. Là một máy chủ cung cấp dịch vụ suy luận (inference) qua HTTP hoặc gRPC endpoint, cho phép các máy khách có thể gởi yêu cầu inference từ xa cho bất kỳ mô hình nào được máy chủ quản lý. TRTIS cung cấp các tính năng sau:
Hỗ trợ multiple framework. Máy chủ có thể quản lý số lượng bất kỳ các mô hình (bị giới hạn bởi tài nguyên lưu trữ và bộ nhớ của hệ thống). Hỗ trợ các định dạng mô hình TensorRT, TensorFlow GraphDef, TensorFlow SavedModel và Caffe2 NetDef.
Nó cũng hỗ trợ các mô hình tích hợp TensorFlow-TensorRT. Hỗ trợ đa GPU. Máy chủ có thể phân bổ việc inference trên tất cả các GPU của hệ thống.
Hỗ trợ triển khai mô hình cùng lúc. Nhiều mô hình (hoặc nhiều phiên bản của cùng một mô hình) có thể chạy đồng thời trên cùng một GPU.
Hỗ trợ batch. Đối với các mô hình hỗ trợ batch, máy chủ có thể chấp nhận các yêu cầu cho một loạt các đầu vào và phản hồi với lô đầu ra tương ứng. Máy chủ cũng hỗ trợ tạo batch động, trong đó các yêu cầu suy luận riêng lẻ được kết hợp động với nhau để cải thiện thông lượng suy luận. Hoạt động dynamic batching mang tính mở cho khách hàng yêu cầu suy luận.
Các kho lưu trữ mô hình có thể nằm trên hệ thống file có thể truy cập cục bộ (ví dụ: NFS) hoặc trong Google Cloud Storage.
Tính sẵn sàng và sức khỏe của các endpoint phù hợp cho tất cả các framework cho orchestration hay deployment. Các chỉ số cho thấy sự khai thác GPU, thông lượng và độ trễ của máy chủ.
Bài viết liên quan
- Mở rộng quy mô cho hạ tầng GenAI on-premise
- CPU NVIDIA Grace C1 được hỗ trợ rộng rãi cho điện toán biên, ngành viễn thông và các hệ thống lưu trữ
- Khi AI và Đồ họa hội tụ: GPU NVIDIA Blackwell PRO tăng tốc cho các ứng dụng AI thế hệ mới
- NVIDIA tại Computex 2025: “Gã khổng lồ xanh” đặt cược tất cả vào AI, GeForce liệu có bị ra rìa?
- AI Blueprint: Nền tảng phân tích video cho các ứng dụng tìm kiếm và tóm tắt video
- Tư vấn lựa chọn máy chủ GPU cho đào tạo AI trong ngành bán lẻ