inference

NVIDIA Dynamo – Thư viện nguồn mở tăng tốc và mở rộng các mô hình lý luận AI

by Vanito Hoang

NVIDIA Dynamo tăng cường hiệu suất suy luận trong khi giảm chi phí cho việc mở rộng quy mô tính toán giai đoạn thử nghiệm; Khả năng suy luận tối ưu trên NVIDIA Blackwell giúp tăng thông lượng lên 30 lần trên DeepSeek-R1. NVIDIA vừa ra mắt NVIDIA Dynamo, một phần mềm suy luận nguồn mở giúp…

Những lợi ích của việc chạy suy luận AI ngay tại biên, thay vì trong trung tâm dữ liệu

by Vanito Hoang

Chuyển đổi suy luận AI từ nền tảng đám mây (Cloud) sang môi trường biên (Edge) tăng cường khả năng ra quyết định theo thời gian thực bằng cách đưa quá trình xử lý dữ liệu đến gần hơn với các nguồn dữ liệu. Đối với các doanh nghiệp, sự thay đổi này làm giảm…

Suy luận AI trên các máy chủ thông dụng của HPE, Dell và Supermicro

by Nguyễn Đức Thái

Inference (suy luận) là workload quan trọng trong các ứng dụng của Trí tuệ Nhân tạo. Inference giúp xử lý các tác vụ phân loại, nhận dạng và dự đoán trong thời gian thực trên dữ liệu đầu vào. Nó là một tập hợp các giải pháp công nghệ phần cứng và phần mềm, bao…

NVIDIA Hopper tiếp tục dẫn đầu hiệu suất Generative AI trong MLPerf

by Anh Huy

Các bài test tiêu chuẩn ngành cho thấy các hệ thống dựa trên NVIDIA Hopper chạy phần mềm TensorRT-LLM sẽ cung cấp nền tảng mạnh mẽ nhất thế giới đối với Generative AI. NVIDIA đã cung cấp nền tảng nhanh nhất thế giới trong các bài test tiêu chuẩn ngành về khả năng suy luận…

NVIDIA NIM: Vi dịch vụ suy luận tối ưu hóa cho triển khai mô hình AI quy mô lớn

by Anh Huy

Sự gia tăng trong việc ứng dụng AI tạo sinh (Generative AI) là rất đáng chú ý trong thời gian gần đây. Được kích hoạt bởi sự ra mắt ChatGPT của OpenAI vào năm 2022, công nghệ mới này đã thu hút hơn 100 triệu người dùng trong vòng vài tháng và thúc đẩy các hoạt động phát…

Nền tảng Suy Luận AI của NVIDIA: Sức mạnh mới cho các ứng dụng AI

by Nguyễn Đức Thái

AI đang ngày càng trở nên quan trọng đối với nhiều lĩnh vực kinh doanh, từ dịch vụ khách hàng cho đến công nghệ tự động hóa. Tuy nhiên, triển khai AI trong các ứng dụng thực tế lại không hề đơn giản. Các vấn đề về hiệu năng, tính tương thích giữa các framework…

Apache MXNet là gì? Nó hoạt động như thế nào?

by Thoại Trịnh

Apache MXNet là một framework học sâu (DL) linh hoạt và có thể mở rộng, hỗ trợ nhiều mô hình học sâu, ngôn ngữ lập trình và có giao diện phát triển được đánh giá cao về tính dễ sử dụng. Apache MXNet là gì? MXNet là một framework học sâu mã nguồn mở cho phép…

“Siêu chip” NVIDIA Grace Hopper thống lĩnh các bài test benchmark MLPerf về suy luận

by Anh Huy

Siêu chip NVIDIA GH200, GPU H100, L4 và các module Jetson Orin cho thấy hiệu suất vượt trội khi chạy AI ở môi trường sản xuất, từ đám mây đến rìa mạng. Trong lần kiểm tra đầu tiên trên điểm benchmark chuyên ngành MLPerf, NVIDIA GH200 Grace Hopper Superchip đã chạy tất cả các bài test suy…

Đánh giá GPU NVIDIA L4 24GB – Mẫu GPU suy luận AI đa năng

by Vanito Hoang

Ở bài đánh giá này chúng tôi sẽ giới thiệu đến bạn một mẫu GPU thú vị, NVIDIA L4. Mặc dù không phải là GPU mạnh nhất của NVIDIA nhưng L4 sẽ là một chiếc card GPU phổ biến trong thời gian tới. Chúng tôi nghĩ đến điều này vì đây thực sự là một phiên bản…

Sentiment Analysis là gì?

by Thoại Trịnh

Phân tích cảm nghĩ Phân tích cảm nghĩ (Sentiment Analysis) là hoạt động diễn dịch và phân loại tự động các cảm xúc (tích cực, tiêu cực hoặc trung tính) từ dữ liệu văn bản như các bài đánh giá bằng chữ, các bài đăng trên mạng xã hội. Sentiment Analysis – Phân tích cảm…

Older posts →

Gửi yêu cầu