AI tạo sinh (Generative AI) là bước ngoặt mới nhất trong bối cảnh kỹ thuật số đang thay đổi nhanh chóng. Một trong những đổi mới mang tính đột phá giúp cho lĩnh vực này trở nên khả thi hơn bao giờ hết, đó là sự xuất hiện của thuật ngữ mới: SuperNIC.
SuperNIC là gì?
SuperNIC là một loại thiết bị tăng tốc mạng (network accelerators) mới được thiết kế để tăng tốc các tác vụ AI quy mô siêu lớn trong các đám mây dựa trên Ethernet. Nó cung cấp khả năng kết nối mạng cực nhanh cho giao tiếp giữa GPU với GPU, có thể đạt tốc độ đến 400Gb/s nhờ sử dụng công nghệ Truy cập bộ nhớ trực tiếp từ xa qua Ethernet hội tụ (RDMA over Converged Ethernet).
SuperNIC kết hợp các tính năng đặc biệt sau:
- Sắp xếp lại gói tin tốc độ cao để đảm bảo rằng các gói dữ liệu được nhận và xử lý theo đúng thứ tự mà chúng được truyền ban đầu. Việc này duy trì tính toàn vẹn tuần tự của luồng dữ liệu.
- Kiểm soát tắc nghẽn nâng cao sử dụng dữ liệu chẩn đoán từ xa theo thời gian thực và các thuật toán nhận biết mạng để quản lý và ngăn chặn tắc nghẽn trong mạng AI.
- Tính toán có thể lập trình trên đường dẫn đầu vào/đầu ra (I/O) để cho phép tùy chỉnh và mở rộng cơ sở hạ tầng mạng trong các trung tâm dữ liệu đám mây AI.
- Thiết kế tiết kiệm năng lượng, cấu hình thấp để đáp ứng hiệu quả các tác vụ AI trong phạm vi ngân sách hạn chế.
- Tối ưu hóa AI toàn diện, bao gồm tính toán, kết nối mạng, lưu trữ, phần mềm hệ thống, thư viện giao tiếp và framework ứng dụng.
NVIDIA gần đây đã công bố SuperNIC đầu tiên trên thế giới được thiết kế riêng cho điện toán AI, dựa trên nền tảng mạng BlueField-3. Nó là một phần của nền tảng NVIDIA Spectrum-X, nơi nó tích hợp liền mạch với hệ thống chuyển mạch Ethernet Spectrum-4.
Cùng với nhau, hệ thống chuyển mạch NVIDIA BlueField-3 SuperNIC và Spectrum-4 tạo thành nền tảng của kết cấu điện toán tăng tốc được thiết kế đặc biệt để tối ưu hóa các tác vụ AI. Spectrum-X luôn mang lại mức hiệu quả mạng cao, vượt trội so với những môi trường Ethernet truyền thống.
“Trong một thế giới với AI đang thúc đẩy làn sóng đổi mới công nghệ kế tiếp, BlueField SuperNIC là một chiếc ‘bánh răng’ quan trọng trong cả bộ máy” – Yael Shenhav, phó chủ tịch phụ trách nhóm sản phẩm DPU và NIC tại NVIDIA. “SuperNIC đảm bảo rằng các tác vụ AI của bạn được thực thi với tính hiệu quả và tốc độ cao, biến chúng thành các thành phần nền tảng để hỗ trợ cho tương lai của điện toán AI”.
Bối cảnh phát triển của AI và Networking
Lĩnh vực AI đang trải qua một cơn địa chấn, nhờ sự ra đời của Generative AI và Mô hình ngôn ngữ lớn (LLM). Những công nghệ mạnh mẽ này đã mở ra những khả năng mới, cho phép máy tính xử lý các tác vụ mới.
Thành công của AI phụ thuộc rất nhiều vào điện toán được tăng tốc bằng GPU để xử lý hàng núi dữ liệu, đào tạo các mô hình AI lớn và cho phép suy luận theo thời gian thực. Sức mạnh tính toán mới này đã mở ra những khả năng mới, nhưng nó cũng thách thức các mạng đám mây Ethernet.
Ethernet truyền thống, công nghệ củng cố cơ sở hạ tầng internet, được hình thành để mang lại khả năng tương thích rộng rãi và kết nối các ứng dụng được liên kết lỏng lẻo. Nó không được thiết kế để đáp ứng nhu cầu tính toán khắt khe của những tác vụ AI hiện đại – bao gồm xử lý song song được kết hợp chặt chẽ, truyền dữ liệu nhanh và các kiểu giao tiếp độc đáo – tất cả đều yêu cầu kết nối mạng được tối ưu hoá.
Card giao tiếp mạng (NIC) nền tảng được thiết kế cho điện toán có mục đích chung, truyền dữ liệu phổ quát và khả năng tương tác. Chúng chưa bao giờ được thiết kế để đối phó với những thách thức đặc biệt do cường độ tính toán của các tác vụ AI đặt ra.
Các NIC tiêu chuẩn thiếu các tính năng và khả năng cần thiết để truyền dữ liệu hiệu quả, độ trễ thấp và hiệu suất xác định quan trọng đối với các tác vụ AI. Mặt khác, những SuperNIC được xây dựng có mục đích cho các tải công việc AI hiện đại.
Ưu điểm của SuperNIC trong môi trường điện toán AI
Bộ xử lý dữ liệu (DPU) cung cấp nhiều tính năng nâng cao, thông lượng cao, kết nối mạng có độ trễ thấp,… Kể từ khi được giới thiệu vào năm 2020, các DPU đã trở nên phổ biến trong lĩnh vực điện toán đám mây, chủ yếu nhờ khả năng giảm tải, tăng tốc và cô lập quá trình xử lý hạ tầng trung tâm dữ liệu.
Mặc dù các DPU và SuperNIC có chung nhiều tính năng và khả năng, SuperNIC được tối ưu hóa riêng biệt để tăng tốc các mạng cho AI. Biểu đồ dưới đây cho thấy cách so sánh giữa chúng:
Các luồng giao tiếp suy luận và đào tạo AI phân tán phụ thuộc rất nhiều vào tính khả dụng của băng thông mạng để thành công. SuperNIC, nổi bật nhờ thiết kế đẹp mắt, có khả năng mở rộng hiệu quả hơn DPU, mang lại băng thông mạng ấn tượng 400Gb/s cho mỗi GPU.
Tỷ lệ 1:1 giữa GPU và SuperNIC trong hệ thống có thể nâng cao đáng kể hiệu quả tác vụ AI, mang lại năng suất cao hơn và kết quả vượt trội cho doanh nghiệp.
Mục đích duy nhất của SuperNIC là để tăng tốc mạng cho điện toán đám mây AI. Do đó, nó đạt được mục tiêu này bằng việc sử dụng ít sức mạnh tính toán hơn DPU, vốn đòi hỏi tài nguyên tính toán đáng kể để giảm tải các ứng dụng từ CPU của host.
Yêu cầu điện toán giảm cũng dẫn đến mức tiêu thụ điện năng thấp hơn, điều này đặc biệt quan trọng trong các hệ thống có tới 8 SuperNIC.
Các tính năng riêng biệt bổ sung của SuperNIC bao gồm khả năng kết nối mạng AI chuyên dụng. Khi được tích hợp chặt chẽ với switch NVIDIA Spectrum-4 được tối ưu hóa cho AI, nó cung cấp tính năng định tuyến thích ứng, xử lý gói không theo thứ tự và kiểm soát tắc nghẽn được tối ưu hóa. Những tính năng nâng cao này là công cụ giúp tăng tốc các môi trường đám mây AI Ethernet.
Cách mạng hóa điện toán đám mây AI
NVIDIA BlueField-3 SuperNIC cung cấp một số lợi ích khiến nó trở thành chìa khóa cho cơ sở hạ tầng sẵn sàng cho AI:
- Hiệu quả tác vụ AI cao nhất: BlueField-3 SuperNIC được thiết kế chuyên dụng cho điện toán song song quy mô lớn, thiên về mạng, khiến nó trở nên lý tưởng cho các tải công việc AI. Nó đảm bảo cho các tác vụ AI hoạt động hiệu quả – không bị tắc nghẽn.
- Hiệu suất nhất quán và có thể dự đoán được: Trong các trung tâm dữ liệu nhiều bên thuê (multi-tenant), nơi nhiều tác vụ được xử lý đồng thời, BlueField-3 SuperNIC đảm bảo rằng mỗi công việc và hiệu suất của bên thuê được tách biệt, có thể dự đoán được và không bị ảnh hưởng bởi các hoạt động mạng khác.
- Bảo mật hạ tầng đám mây đa khách hàng (multi-tenant): Bảo mật là ưu tiên hàng đầu, đặc biệt là trong các trung tâm dữ liệu xử lý thông tin nhạy cảm. BlueField-3 SuperNIC duy trì mức độ bảo mật cao, cho phép nhiều đối tượng thuê cùng tồn tại trong khi vẫn tách biệt dữ liệu và quá trình xử lý.
- Hạ tầng mạng có thể mở rộng: BlueField-3 SuperNIC không bị giới hạn về phạm vi – nó rất linh hoạt và có khả năng thích ứng với vô số nhu cầu về hạ tầng mạng khác nhau.
- Hỗ trợ rộng rãi cho các nhà sản xuất máy chủ: BlueField-3 SuperNIC phù hợp hoàn toàn với hầu hết các máy chủ cấp doanh nghiệp mà không tiêu thụ quá nhiều điện năng trong các trung tâm dữ liệu.
Theo NVIDIA Blog
Bài viết liên quan
- GPUDirect RDMA là gì?
- GPUDirect Storage là gì?
- So sánh các GPU Tensor Core của NVIDIA: B200, B100, H200, H100, A100
- NVIDIA giới thiệu nền tảng microservice Metropolis để chạy ứng dụng Edge AI trên Jetson
- Phát triển ứng dụng AI tại biên với NVIDIA Jetson AGX Orin & Developer Kit
- HPE và NVIDIA công bố ‘NVIDIA AI Computing by HPE’ để thúc đẩy cuộc cách mạng AI tạo sinh