Đánh giá hiệu năng của các AI Agent cục bộ trên NVIDIA DGX Spark (Ollama + OpenClaw)

Giới thiệu

Việc chạy một mô hình LLM mở cục bộ hiện nay có rào cản gia nhập cực kỳ thấp với Ollama. Câu hỏi thực sự là liệu một mô hình cục bộ có thể hoạt động như một tác nhân đáng tin cậy hay không: gọi các công cụ một cách chính xác, truyền các đối số hợp lệ, xử lý các đầu ra phức tạp và hoàn thành các nhiệm vụ nhiều bước mà không bị sai lệch.

Để đo lường điều đó, chúng tôi đã xây dựng một bộ công cụ đánh giá hiệu năng có thể tái tạo dựa trên Ollama + OpenClaw và chạy nó trên NVIDIA DGX Spark. Bài viết này sẽ trình bày những gì chúng tôi đã thử nghiệm, cách chúng tôi chấm điểm hành vi của tác nhân và mô hình nào hoạt động tốt nhất trong quy trình làm việc nhiều bước của công cụ.

Tóm tắt nội dung:

Tiêu chuẩn này đo lường hành vi của tác nhân (gọi công cụ, kỷ luật đối số, khả năng chống tấn công chèn và chuỗi nhiều bước), chứ không chỉ đơn thuần là số token/giây.
Đã thử nghiệm 3 mẫu từ mỗi dòng sản phẩm Qwen, Gemma và Nemotron.
Trong các lần chạy DGX Spark của chúng tôi, các mô hình “hướng tác nhân” lớn hơn có xu hướng đáng tin cậy hơn trên các chuỗi nhiều bước.
Một mẫu máy tầm trung nổi bật nhờ tốc độ và hoạt động mượt mà của tác nhân, trở thành lựa chọn mặc định thiết thực cho tác nhân cục bộ nếu bạn không muốn độ trễ ở mức 100B.
Nếu bạn chọn mô hình tác nhân cục bộ, độ tin cậy và độ sâu bước nhảy quan trọng hơn thông lượng thô.

Vì sao DGX Spark phù hợp với khối lượng công việc này

DGX Spark là một hệ thống máy tính để bàn nhỏ gọn được xây dựng trên nền tảng Grace Blackwell GB10 với 128GB bộ nhớ hợp nhất — và kiến trúc bộ nhớ đó là một lý do lớn khiến nó trở nên hấp dẫn đối với các quy trình làm việc dựa trên tác nhân. Trong thiết kế bộ nhớ hợp nhất, CPU và GPU chia sẻ một vùng bộ nhớ duy nhất, nhất quán thay vì phải quản lý riêng biệt “RAM hệ thống” và “VRAM GPU” với các bản sao ở giữa.

Đây là lợi thế so với các máy trạm truyền thống vì các tác nhân thực sự không chỉ là các bản demo một lần nhấn. Chúng tích lũy các lệnh hệ thống lớn, tài liệu đã truy xuất, đánh giá lược đồ và đầu ra của công cụ, xác định các kế hoạch trung gian và giải quyết các vấn đề nhiều bước. Điều đó có nghĩa là tác nhân của bạn có thể lưu trữ nhiều hơn tập dữ liệu làm việc của nó ở một nơi và truy cập chúng với ít chi phí “di chuyển dữ liệu” hơn.

Với dung lượng bộ nhớ hợp nhất 128GB , Spark giúp dễ dàng chạy các mô hình cục bộ lớn hơn và duy trì các chuỗi đa bước dài hơn mà không cần liên tục cắt bớt ngữ cảnh hoặc gặp phải tình trạng thiếu bộ nhớ, lý tưởng để giữ cho vòng lặp hành động được nguyên vẹn với các lệnh gọi công cụ nhất quán, khả năng giữ lại ngữ cảnh ổn định và khả năng theo dõi đáng tin cậy qua nhiều bước nhảy. Chúng ta sẽ tìm hiểu thêm về các bước nhảy sau.

Vùng nhớ thống nhất: CPU và GPU chia sẻ một vùng nhớ duy nhất (giảm thiểu việc phải “phân bổ RAM và VRAM”).
Bộ nhớ làm việc lớn hơn: nhiều không gian hơn cho trọng số mô hình, bộ nhớ đệm KV, lời nhắc hệ thống, tài liệu đã truy xuất và đầu ra của công cụ.
Giảm thiểu tình trạng nghẽn bộ nhớ: tránh hiện tượng “vừa khít” có thể làm tăng độ trễ giữa chuỗi xử lý.
Các thao tác nhiều bước đáng tin cậy hơn: giúp duy trì các quy trình làm việc dài hơi, đòi hỏi nhiều công cụ mà không cần liên tục cắt bớt ngữ cảnh.

Thiết lập kiểm thử OpenClaw (và lý do khác biệt so với môi trường sản xuất)

Hầu hết các bài kiểm tra hiệu năng LLM cục bộ đều đo lường chất lượng hoặc tốc độ tạo ra dữ liệu, nhưng chúng không cho biết liệu một mô hình có thể hoạt động như một tác nhân đáng tin cậy hay không. Quy trình làm việc của tác nhân bao gồm các lệnh gọi công cụ lặp đi lặp lại. Để đo lường những hành vi đó, bạn có thể lấy về bộ công cụ kiểm tra hiệu năng có thể tái tạo dựa trên Ollama + OpenClaw, chạy các bài kiểm tra tác nhân có cấu trúc và ghi lại hành vi đạt/không đạt, độ trễ, thông lượng và độ sâu chuỗi đa bước. Tham khảo tại đây.

Mô hình chuẩn tốt nhất không nhất thiết là mô hình runtime OpenClaw tốt nhất . Mô hình chuẩn giao tiếp trực tiếp với Ollama để đo lường có kiểm soát, trong khi OpenClaw là runtime thực tế của tác nhân và mang theo lời nhắc hệ thống lớn hơn cũng như nhiều ngữ cảnh runtime hơn. Điều đó làm thay đổi lựa chọn mô hình thực tế: một mô hình thuộc lớp 120B có thể trông mạnh mẽ nhất khi đứng riêng lẻ nhưng vẫn không phù hợp do hạn chế về dung lượng sử dụng và độ trễ.

Kết quả thử nghiệm OpenClaw của chúng tôi xác nhận điều này: nemotron-3-super:120b-a12b là cấu hình benchmark mạnh nhất, nhưng nó không phải là lựa chọn thực tế cho OpenClaw. nemotron-3-nano:30b phù hợp hơn với môi trường chạy vì giữ lại nhiều ngữ cảnh hữu ích hơn và phản hồi đủ nhanh cho công việc tương tác của tác nhân.

Các mẫu chúng tôi đã thử nghiệm

Đối với lần chạy tham chiếu DGX Spark, chúng tôi đã thử nghiệm một tập hợp các mô hình mở được lựa chọn để bao phủ một phạm vi hữu ích. Chúng tôi bao gồm các bài kiểm tra “Spark-native” lớn (ví dụ: nemotron-3-super:120b-a12b ), các đường cơ sở MoE nhanh (ví dụ: qwen3.5:35b-a3b ), các điểm tham chiếu dày đặc (ví dụ: qwen3.5:27b ), một trường hợp chịu tải bộ nhớ ( qwen3.5:122b-a10b ) và các mô hình nhỏ hơn/nhanh hơn (các biến thể Nemotron + Gemma) để xem tốc độ thường đánh đổi với tính kỷ luật của công cụ như thế nào.

Kiến trúc rất quan trọng vì chỉ số lượng tham số thôi là chưa đầy đủ: các mô hình dày đặc sử dụng toàn bộ mạng cho mỗi token (khá đơn giản nhưng chi phí tăng theo tỷ lệ thuận), trong khi các mô hình MoE định tuyến mỗi token thông qua một tập con hoạt động nhỏ hơn (thường có sự cân bằng tốt hơn giữa khả năng và tốc độ). Bài kiểm tra hiệu năng giữ cả hai để chúng ta có thể so sánh sự đánh đổi thực tế của tác nhân: tốc độ, áp lực bộ nhớ, dung lượng ngữ cảnh và độ tin cậy.

Model	Parameters	Type	Why It’s In The Set
nemotron-3-nano:4b	4 billion	Dense	Small baseline, fast sanity-check model
gemma4:e4b	4 billion	Dense	Small/fast Gemma baseline
gemma4:26b	26 billion	Dense	Practical mid-size local-agent candidate
qwen3.5:27b	27 billion	Dense	Larger dense comparison point
gemma4:31b	31 billion	Dense	Larger Gemma comparison point
nemotron-3-nano:30b	30 billion	MoE	Mid-sized speed-oriented model with agent potential
qwen3.5:35b-a3b	35 billion	MoE	Strong local MoE baseline
nemotron-3-super:120b-a12b	120 billion	MoE	Large flagship model and the most interesting Spark-native candidate
qwen3.5:122b-a10b	122 billion	MoE	Large high-capability model that stresses memory assumptions

Tăng tốc quá trình huấn luyện AI trên NVIDIA DGX Spark

Mang sức mạnh tính toán AI doanh nghiệp đi bất cứ đâu. NVIDIA DGX Spark cung cấp hiệu năng lên đến 1 petaFLOP trong một thiết kế nhỏ gọn 6″ x 6″ x 2″. Khai thác sức mạnh trung tâm dữ liệu trong ba lô của bạn. Hiện đã có sẵn tại Thế Giới Máy Chủ.

Nhận báo giá ngay hôm nay!

Model	Type	T1-T17	Hop Depth	Avg tok/s	Notes
NemoTron 3 Nano
nemotron-3-nano:4b	Dense	16/17	4	64.2	Fast, but one noisy full-run miss
nemotron-3-nano:30b	Dense	15/17	5	64.7	Fast, but flaky on T13
nemotron-3-super:120b-a12b	MoE	17/17	6	16.4	Strongest overall agent profile in this Spark run

Qwen 3.5
qwen3.5:27b	Dense	17/17	5	10.4	Clean and reliable but slow
qwen3.5:35b-a3b	Dense	17/17	4	48.2	Clean, reliable, fast
qwen3.5:122b-a10b	Dense	17/17	3	20.1	Clean after T11 timeout fix

Gemma4
gemma4:e4b	Dense	17/17	2	52.6	Fast and clean, but shallow multi-hop behavior
gemma4:26b	MoE	17/17	4	52.7	Best Gemma result; strong speed/reliability balance
gemma4:31b	MoE	17/17	2	9.7	Clean, but slow and shallow compared with the others

Cách đọc tiêu chuẩn này

Các bảng kết quả trong bài đăng này không nhằm mục đích được xem như một bảng xếp hạng thông thường. Một điểm số đơn lẻ không thể nói lên toàn bộ câu chuyện.

T1–T17 là bộ kiểm thử tác nhân có cấu trúc. Nó kiểm tra xem mô hình có thể gọi đúng công cụ, truyền đúng đối số, xử lý đầu ra không đúng định dạng, tuân theo các quy tắc định dạng, chống lại việc chèn lời nhắc và theo dõi các thay đổi trạng thái đơn giản hay không. Điểm số tốt nhất là 17/17.
- T1–T4 Gọi công cụ cơ bản: Lựa chọn công cụ chính xác; đối số chính xác; không ảo tưởng công cụ
- T5–T7 Cuộc gọi công cụ song song: Nhiều cuộc gọi trong một lượt; phân bổ kết quả; xử lý xung đột
- Các lỗi đầu vào T8–T11 : 404s; đầu ra công cụ bị lỗi/không đầy đủ; lỗi hết thời gian chờ; tải trọng rất lớn.
- Tuân thủ hướng dẫn T12–T15 : Ràng buộc một lần gọi; kỷ luật chỉ sử dụng JSON; khả năng chống lại việc chèn lệnh nhắc nhở; xử lý xung đột lệnh
- T16–T17 Các trường hợp ngoại lệ: Biết khi nào không nên gọi một công cụ; thay đổi trạng thái trong quá trình hoạt động
Độ sâu bước nhảy (Hop Depth) là phép thử chuỗi leo thang. Mỗi kết quả của công cụ sẽ trở thành đầu vào cho bước tiếp theo, vì vậy mô hình phải duy trì ngữ cảnh và giữ cho nhiệm vụ tiếp tục. Đây là một trong những con số quan trọng nhất đối với hoạt động của tác nhân vì các tác nhân thực tế hiếm khi dừng lại sau một lần gọi công cụ thành công. Một chuỗi có độ sâu bước nhảy là 4 có thể trông như sau:
- tìm kiếm địa điểm → lấy thông tin chi tiết địa điểm → lấy chỉ đường → tìm kiếm chỗ đậu xe
Tốc độ trung bình (Avg Tok/s) thể hiện tốc độ xử lý. Lý tưởng nhất là chúng ta muốn thấy tốc độ nhanh hơn 20 Tok/s, và tốc độ phản hồi tốt nhất là trên 40 Tok/s. Điều này rất quan trọng, đặc biệt đối với một tổng đài viên địa phương luôn trực tuyến, nhưng nó không đồng nghĩa với độ tin cậy. Một mô hình nhanh nhưng vi phạm hợp đồng công cụ vẫn có thể là lựa chọn sai lầm đối với một tổng đài viên.

Kết quả tốt nhất là mô hình cân bằng cả ba yếu tố: Trí tuệ nhân tạo tác động (Agentic AI) có hành vi kiểm thử được cấu trúc rõ ràng, độ ổn định đa bước sâu và tốc độ sử dụng cao.

Mô hình mạnh nhất phía Spark trong lần chạy này là nemotron-3-super:120b-a12b với thành tích 17/17 xuất sắc, độ sâu nhảy tốt nhất và cấu hình tác nhân mạnh nhất trong toàn bộ bộ mô hình.
Dòng Qwen cũng hoạt động rất tốt, đặc biệt là sau khi quá trình kiểm tra/chấm điểm chuẩn ổn định và đường dẫn hết thời gian chờ T11 được xử lý khá tốt.
Cả ba mô hình Gemma đều đạt điểm t-score 17/17 tuyệt đối và xử lý tốt T-11 (thời gian hội ý).
gemma4:26b cho kết quả Gemma mạnh nhất, với độ sâu bước nhảy là 4 ở tốc độ 52,7 tok/s.
gemma4:e4b cũng nhanh gần bằng, nhưng dừng lại sau 2 bước nhảy.
gemma4:31b hoạt động trơn tru nhưng quá chậm và cũng dừng lại sau 2 bước nhảy.

Điều đó khiến gemma4:26b trở thành kết quả thực tế bất ngờ. Nó không đánh bại nemotron-3-super:120b-a12b về độ sâu tác nhân, nhưng lại ngang bằng với qwen3.5:35b-a3b về độ sâu bước nhảy trong khi có tốc độ tok/s cao hơn.

Tốc độ so với độ tin cậy

Một trong những kết luận quan trọng nhất là các mô hình nhanh nhất không tự động là các mô hình tác nhân tốt nhất. Ví dụ, nemotron-3-nano:4b và nemotron-3-nano:30b rất nhanh, nhưng các vấn đề về hiệu năng còn lại tập trung ở các mô hình Nemotron nhỏ hơn. gemma4:e4b và gemma4:26b cũng nhanh, nhưng chỉ gemma4:26b mới kết hợp được tốc độ đó với kết quả đa bước mạnh mẽ hơn.

Điều đó tạo ra một sự đánh đổi thực sự:

Các mẫu xe nhỏ hơn có thể hấp dẫn về mặt vận hành nhờ tốc độ.
Các mô hình lớn hơn có thể đáng tin cậy hơn nhiều khi nhiệm vụ trở nên mang tính tác nhân.
Các mẫu kích thước tầm trung có thể là lựa chọn tối ưu khi chúng giữ cho giao diện công cụ được gọn gàng mà không làm tăng quá nhiều độ trễ.

Đối với một tác nhân hoạt động liên tục, độ tin cậy thường có giá trị hơn số lượng token xử lý mỗi giây.

Đó là một trong những điểm cốt lõi của tiêu chuẩn đánh giá.

Kết quả Gemma làm rõ thêm điểm này. gemma4:31b lớn hơn gemma4:26b , nhưng rõ ràng là không tốt hơn trong bài kiểm tra này: nó chậm hơn và dừng sớm hơn ở độ sâu bước nhảy. Kết quả Gemma tốt nhất đến từ mô hình có sự cân bằng tốt nhất, chứ không phải từ mô hình có số lượng tham số lớn nhất trong giới hạn bộ nhớ của DGX Spark.

Tại sao điều này lại quan trọng đối với các đại lý địa phương

Một tác nhân luôn hoạt động cần thực hiện những tác vụ nhàm chán một cách đáng tin cậy. Nó cần gọi đúng công cụ, truyền đúng tham số, chờ kết quả, đọc kết quả một cách chính xác và quyết định bước tiếp theo cần làm gì. Nó cần tiếp tục làm điều đó ngay cả khi công cụ trả về dữ liệu không đầy đủ, hết thời gian chờ, một tải trọng khổng lồ hoặc văn bản cố gắng chiếm quyền kiểm soát hệ thống phân cấp lệnh.

Đó là lý do tại sao tiêu chuẩn này đề cao tính nhất quán. Một mô hình nhanh nhưng lại dễ dàng làm hỏng định dạng JSON, tự tạo ra các tham số công cụ hoặc mất liên lạc sau hai bước sẽ khó đáng tin cậy hơn trong môi trường thực tế. Nó vẫn có thể hữu ích cho các tác vụ cụ thể, nhưng cần có các biện pháp bảo vệ, cơ chế thử lại hoặc phạm vi trách nhiệm nhỏ hơn.

Các mô hình mạnh nhất trong lần chạy này chỉ ra các cấu hình tác nhân cục bộ khác nhau:

nemotron-3-super:120b-a12b là ứng cử viên tác nhân sâu mạnh nhất. Nó chậm hơn các mô hình nhỏ, nhưng có độ sâu bước nhảy tốt nhất và một lần chạy thử nghiệm cấu trúc sạch sẽ.
gemma4:26b là một bất ngờ thú vị. Nó hoạt động nhanh, mượt mà và đạt được độ sâu nhảy tương tự như qwen3.5:35b-a3b .
qwen3.5:35b-a3b vẫn là một nền tảng MoE nhanh và mạnh mẽ, với hành vi có cấu trúc rõ ràng và độ sâu bước nhảy ổn định.

Đó mới là câu chuyện thực sự của Spark. Phần cứng mở ra cánh cửa cho các mô hình cục bộ lớn hơn, nhưng tiêu chuẩn đánh giá giúp quyết định mô hình nào thực sự hữu ích bên trong một tác nhân. Mục tiêu không phải là chạy mô hình lớn nhất chỉ vì mục đích đó. Mục tiêu là chạy mô hình có thể giữ cho vòng lặp hành động được nguyên vẹn.

Lựa chọn mô hình cho đại lý địa phương

Phần này liên kết quá trình đánh giá hiệu năng với OpenClaw và các triển khai thực tế.

Trên thực tế, hãy chọn mô hình đáng tin cậy nhất mà bạn có thể chạy một cách thoải mái, và tối ưu hóa tính chính xác của công cụ + tính ổn định đa bước trước khi ưu tiên số lượng token/giây thô. Bộ nhớ kiểu Spark hữu ích khi tác nhân của bạn cần ngữ cảnh dài, nhiều lệnh gọi công cụ và khả năng theo dõi nhất quán.

Trường hợp sử dụng	Phù hợp nhất từ những lần chạy này	Loại LLM
Hồ sơ đại lý tổng thể mạnh nhất	nemotron-3-super:120b-a12b	Bộ Giáo dục
Phù hợp nhất với thời gian chạy của OpenClaw	nemotron-3-nano:30b	Dày đặc
Tốc độ/độ tin cậy tốt nhất bất ngờ	gemma4:26b	Bộ Giáo dục
Mô hình dày đặc, nhanh và mạnh	qwen3.5:35b-a3b	Dày đặc
Tiến hành các thí nghiệm nhanh hơn và thận trọng hơn.	nemotron-3-nano:4b , nemotron-3-nano:30b , gemma4:e4b	Dày đặc

Sự khác biệt đó rất quan trọng. nemotron-3-super:120b-a12b là mô hình mạnh nhất trong bảng xếp hạng, nhưng nemotron-3-nano:30b lại phù hợp hơn với OpenClaw vì chính quá trình chạy tiêu tốn một lượng lớn ngữ cảnh. Trong các triển khai tác nhân thực tế, cửa sổ ngữ cảnh có thể sử dụng được quan trọng không kém gì điểm số chuẩn riêng lẻ của mô hình.

Đây cũng là cầu nối dẫn đến giai đoạn tiếp theo của dự án:

OpenClaw là môi trường chạy đang hoạt động.
Công nghệ NemoClaw và các công đoạn gia cường liên quan để chuẩn bị cho sản xuất.
một kho lưu trữ chuẩn công khai đã được làm sạch để các nhà phát triển có thể tái tạo và mở rộng bộ kiểm thử.

Phần kết luận

DGX Spark giúp việc đánh giá hiệu năng tác nhân cục bộ trở nên khả thi trên quy mô lớn bằng cách cung cấp đủ dung lượng bộ nhớ cho các mô hình lớn hơn và các ngữ cảnh dài hơn, đòi hỏi nhiều công cụ.

Trong lần chạy này, nemotron-3-super:120b-a12b cho thấy cấu hình tác nhân tổng thể mạnh nhất, trong khi gemma4:26b nổi bật với sự cân bằng tốt nhất giữa tốc độ và độ tin cậy. Bài học rút ra rất đơn giản: đối với các tác nhân cục bộ, hãy chọn mô hình dựa trên độ tin cậy của công cụ và tính ổn định đa bước, chứ không chỉ dựa trên số token mỗi giây.

Thế Giới Máy Chủ là đối tác tích hợp giải pháp của NVIDIA và cung cấp nhiều giải pháp đa dạng sử dụng nền tảng của NVIDIA. Hãy yêu cầu báo giá cho DGX Spark, DGX Station, máy trạm RTX, hoặc bất kỳ cấu hình máy chủ nào tích hợp GPU NVIDIA. Nếu bạn chưa chắc chắn về nhu cầu của mình, hãy trao đổi với các kỹ sư của chúng tôi để được tư vấn về phần cứng!

Liên hệ Thế Giới Máy Chủ

____
Bài viết liên quan

Giới thiệu

Vì sao DGX Spark phù hợp với khối lượng công việc này

Thiết lập kiểm thử OpenClaw (và lý do khác biệt so với môi trường sản xuất)

Các mẫu chúng tôi đã thử nghiệm

Tăng tốc quá trình huấn luyện AI trên NVIDIA DGX Spark

Model

Type

T1-T17

Hop Depth

Avg tok/s

Notes

Cách đọc tiêu chuẩn này

Tốc độ so với độ tin cậy

Tại sao điều này lại quan trọng đối với các đại lý địa phương

Lựa chọn mô hình cho đại lý địa phương

Phần kết luận

Gửi yêu cầu