Nền tảng mạng NVIDIA Spectrum™-X là nền tảng Ethernet đầu tiên được thiết kế đặc biệt để cải thiện hiệu suất và hiệu quả của đám mây trí tuệ nhân tạo dựa trên Ethernet. Công nghệ đột phá này đạt được hiệu suất tổng thể của AI tốt hơn 1.7 lần và hiệu suất năng lượng tốt hơn, đồng thời cung cấp hiệu suất nhất quán và dự đoán được trong môi trường đa khách hàng.
Spectrum-X được xây dựng trên những đổi mới về mạng dựa trên sự kết hợp chặt chẽ của switch Ethernet NVIDIA Spectrum™-4 cùng với đơn vị xử lý dữ liệu NVIDIA® BlueField®-3 (DPU). Việc cung cấp khả năng AI từ đầu đến cuối giúp giảm thời gian chạy của các mô hình trí tuệ nhân tạo sáng tạo dựa trên transformer và cho phép kỹ sư mạng, nhà khoa học dữ liệu AI và nhà cung cấp dịch vụ đám mây nhận được kết quả chính xác và đưa ra quyết định thông minh nhanh hơn.
Dễ dàng triển khai và quản lý các ứng dụng trí tuệ nhân tạo mạnh mẽ với nền tảng mạng NVIDIA Spectrum-X™. Spectrum-X mang đến hiệu suất cao nhất cho trí tuệ nhân tạo, học máy và xử lý ngôn ngữ tự nhiên, cũng như ứng dụng đa dạng trong các ngành công nghiệp.
The Challenge of Traditional Ethernet With AI
Các đám mây trí tuệ nhân tạo sử dụng Ethernet truyền thống cho hạ tầng tính toán chỉ đạt được một phần nhỏ hiệu suất MLPerf so với những gì họ có thể đạt được với mạng tối ưu hóa. Trong môi trường đa khách hàng, nơi nhiều nhiệm vụ trí tuệ nhân tạo chạy đồng thời, việc cô lập hiệu suất là rất quan trọng để ngăn chặn sự suy giảm hiệu suất tiếp theo. Nếu xảy ra lỗi liên kết, hạ tầng Ethernet truyền thống có thể làm giảm hiệu suất AI của cụm máy tính điều khiển điều này lên tới một nửa.
Điều này là do Ethernet truyền thống chủ yếu được tối ưu hóa cho quy trình làm việc hàng ngày trong doanh nghiệp và không được thiết kế để đáp ứng yêu cầu của các ứng dụng trí tuệ nhân tạo có hiệu suất cao phụ thuộc vào NVIDIA Collective Communications Library (NCCL).
Các vấn đề hiệu suất này là do những yếu tố tự nhiên của Ethernet truyền thống:
- Độ trễ switch cao, phổ biến trên ASIC hàng hoá
- Kiến trúc switch với bộ đệm phân chia, có thể dẫn đến sự không công bằng về băng thông
- Cân bằng tải không tối ưu cho các luồng lớn được tạo ra bởi công việc trí tuệ nhân tạo
- Các vấn đề cô lập hiệu suất và hiệu ứng hàng xóm ồn ào
- Nền tảng mạng Spectrum-X, dựa trên Spectrum-4 và BlueField-3, giải quyết những vấn đề này với Ethernet truyền thống.
Key Features and Benefits
- Cải thiện hiệu suất đám mây trí tuệ nhân tạo: Spectrum-X tăng cường hiệu suất đám mây trí tuệ nhân tạo lên tới 1.7 lần và hơn thế nữa, tăng tốc xử lý, phân tích và thực thi các công việc trí tuệ nhân tạo và từ đó, phát triển và triển khai các giải pháp trí tuệ nhân tạo.
- Kết nối Ethernet tiêu chuẩn: Spectrum-X được động lực bởi sự đổi mới của NVIDIA, hoàn toàn tuân theo tiêu chuẩn Ethernet và hoàn toàn tương tích với các ngăn xếp dựa trên Ethernet.
- Tăng cường hiệu quả năng lượng: Bằng cách cải thiện hiệu suất, Spectrum-X góp phần vào một môi trường trí tuệ nhân tạo tiết kiệm năng lượng hơn. Điều này dẫn đến tiêu thụ điện năng giảm và giảm chi phí vận hành cho các cụm trí tuệ nhân tạo.
- Nâng cao hiệu suất đa khách hàng: Cô lập hiệu suất trong môi trường đa khách hàng đảm bảo rằng công việc của mỗi khách hàng được thực hiện tối ưu và nhất quán, dẫn đến sự hài lòng cao hơn của khách hàng và cải thiện chất lượng dịch vụ.
- Quản lý dễ dàng hơn: Quá trình cấu hình tự động từ đầu đến cuối của các chức năng mạng tiên tiến đã được điều chỉnh hoàn toàn cho các công việc trí tuệ nhân tạo.
- Tính đáng tin cậy cao: Với tính đáng tin cậy cao, các vấn đề hiệu suất liên quan đến mất kết nối sẽ được loại bỏ, giới hạn mất băng thông chỉ xảy ra trên kết nối đó.
- Hạ tầng an toàn: Sử dụng BlueField-3, Spectrum-X tăng cường tính năng mã hóa và tính năng kiểm tra gói tin sâu để đảm bảo an ninh và cô lập của mặt điều khiển.
Increased Power Efficiency
Việc giới hạn công suất đã trở thành một thực tiễn phổ biến trong các trung tâm dữ liệu do nhu cầu ngày càng tăng về tài nguyên tính toán và sự cần thiết để kiểm soát chi phí năng lượng. Nhìn chung, việc cải thiện hiệu suất AI trên mỗi watt là điều cần thiết để đạt được hiệu suất tính toán tốt hơn và cung cấp thông tin nhanh hơn, đồng thời vẫn nằm trong ngân sách năng lượng.
Điều này đặc biệt quan trọng trong các ứng dụng như học sâu, nơi mô hình huấn luyện có thể đòi hỏi tính toán mạnh mẽ và tiêu thụ năng lượng lớn. Ngoài những lợi ích về hiệu suất thuần túy, Spectrum-X vượt trội hơn so với tất cả các giải pháp Ethernet khác, mang lại hiệu suất năng lượng tốt hơn 1.7 lần (hiệu suất trên mỗi watt).
NCCL">Mạng lưới tối ưu hóa NCCL
Các công tắc Spectrum-4 và BlueField-3 DPU làm việc phối hợp chặt chẽ để kết hợp với giấy phép Spectrum-X. Cùng nhau, chúng tạo thành một hệ thống mạng lưới tối ưu hóa NCCL được xây dựng để tối ưu hiệu suất cụm trí tuệ nhân tạo bằng một bộ sáng kiến từ đầu đến cuối:
- Định tuyến linh hoạt RoCE tránh tắc nghẽn bằng cách định tuyến động các luồng trí tuệ nhân tạo lớn ra xa điểm tắc nghẽn. Phương pháp này cải thiện việc tận dụng tài nguyên mạng, hiệu suất của hệ thống leaf/spine và hiệu suất làm việc. Công tắc Spectrum-4 sử dụng cân bằng tải chi tiết, định tuyến lại các luồng hoạt động để loại bỏ tắc nghẽn. Ngoài ra, BlueField-3 DPU làm việc cùng nhau để xử lý các gói tin không theo thứ tự, đặt các gói tin theo thứ tự chính xác trong bộ nhớ đích. Định tuyến linh hoạt RoCE hỗ trợ các hồ sơ cho việc cung cấp và tự động hóa hiệu quả.
- BlueField sử dụng mô hình học sâu để đo đạc dữ liệu, tối ưu hóa cài đặt cho các hệ thống đa nhiệm, đa khách hàng.">Kiểm soát tắc nghẽn RoCE thu thập dữ liệu hiệu suất mạng bằng cách sử dụng viễn thông mạng trong dải tần. BlueField-3 DPU sử dụng dữ liệu viễn thông công tắc đã thu thập để tối ưu hóa tốc độ dữ liệu mạng. Các thuật toán BlueField sử dụng mô hình học sâu để đo đạc dữ liệu, tối ưu hóa cài đặt cho các hệ thống đa nhiệm, đa khách hàng.
- GPU đến DPU và ánh xạ quỹ đạo và hành vi từng bước qua cổng switch và hàng đợi RoCE.">Tầm nhìn từ đầu đến cuối với NVIDIA NetQ theo dõi hiệu suất theo luồng từ GPU đến DPU và ánh xạ quỹ đạo và hành vi từng bước qua cổng switch và hàng đợi RoCE.
- Tích hợp đầy đủ dải sản phẩm NVIDIA bao gồm NVIDIA NetQ, NCCL, Nsight, GPU H100 Tensor Core, BlueField-3 và Spectrum-4 – tất cả có thể được cấu hình bằng NVIDIA Bright Cluster Manager để triển khai đơn giản và sẵn sàng cho hoạt động và tiết kiệm thời gian triển khai AI.
- học máy đòi hỏi xử lý thời gian thực. Công tắc Spectrum-4 cung cấp công nghệ chuyển mạch 200/400GbE có độ trễ thấp nhất trong ngành, đảm bảo độ trễ và dao động cực thấp cho 256 cổng.">Độ trễ rất thấp quan trọng đối với các công việc trí tuệ nhân tạo và học máy đòi hỏi xử lý thời gian thực. Công tắc Spectrum-4 cung cấp công nghệ chuyển mạch 200/400GbE có độ trễ thấp nhất trong ngành, đảm bảo độ trễ và dao động cực thấp cho 256 cổng.
- Ngưỡng hành vi công tắc tối ưu hóa NCCL cho phép tối ưu hóa ngưỡng bộ đệm và tắc nghẽn cho công việc trí tuệ nhân tạo. Điều này đảm bảo hoạt động tổng hợp được đồng bộ, giảm khả năng tắc nghẽn và mất gói tin.
Spectrum-X cung cấp một giải pháp đột phá cho các tổ chức xây dựng các đám mây trí tuệ nhân tạo dựa trên Ethernet. Spectrum-X nâng cao hiệu suất và hiệu quả năng lượng của các đám mây trí tuệ nhân tạo trong các ứng dụng khác nhau, mang lại tính dự đoán và đồng nhất cao hơn. Điều này giúp giảm thời gian đưa sản phẩm ra thị trường nhanh hơn và tạo lợi thế cạnh tranh mạnh mẽ.
Improved AI Cloud Performance
NVIDIA Spectrum-X tăng cường hiệu suất và hiệu quả năng lượng lên tới 1.7 lần, giúp tăng tốc xử lý, phân tích và thực thi các công việc AI và từ đó, phát triển và triển khai các giải pháp AI.
Ethernet tăng tốc cho quy mô cực lớn Được động lực bởi những đổi mới về mạng của NVIDIA, Spectrum-X hoàn toàn tuân theo các tiêu chuẩn Ethernet và hỗ trợ các ngăn xếp Ethernet mở (SONiC, Linux Switch) trên quy mô đám mây.
Tối ưu hóa toàn bộ ngăn xếp Spectrum-X đã được điều chỉnh và xác minh trên toàn bộ ngăn xếp phần cứng và phần mềm của NVIDIA, tạo ra một giải pháp Ethernet không thể so sánh cho đám mây trí tuệ nhân tạo.
Nền tảng Mạng lưới NVIDIA Spectrum-X
Nền tảng mạng lưới Spectrum-X bao gồm các thành phần sau đây.
- Công tắc Ethernet Spectrum-4 cho các thiết kế smart-leaf, spine và super-spine cung cấp 64 cổng 800GbE trong một kích thước 2U dày đặc, đóng vai trò quan trọng trong việc triển khai NVIDIA Spectrum-X. Công tắc SN5600 hỗ trợ cả thiết kế leaf và spine tiêu chuẩn với các công tắc top-of-rack và các công nghệ đầu hàng cuối được tối ưu hóa. Công tắc SN5600 cung cấp kết nối đa dạng trong các kết hợp 10-800GbE và có tổng thông lượng hàng đầu ngành là 51,2 terabit mỗi giây (Tb/s).
- BlueField-3 DPU cung cấp tính toán hiệu năng cao hoạt động ở 400 gigabit mỗi giây (Gb/s) với xử lý tốc độ dây trạm của mạng lưới được định nghĩa bằng phần mềm, lưu trữ và an ninh mạng. BlueField-3 kết hợp khả năng tính toán mạnh mẽ, mạng lưới tốc độ cao và tính linh hoạt lớn để cung cấp cho Spectrum-X với RoCE tăng tốc, cùng với đa người sử dụng và an ninh zero-trust, quan trọng cho mặt phẳng điều khiển.
- Các bộ chuyển đổi và cáp LinkX cung cấp một lựa chọn mạnh mẽ của cáp đồng trực tiếp (DACs), cáp đồng hoạt động (ACCs), cáp quang hoạt động (AOCs) và module quang cần thiết để kết nối các mạng dựa trên hình thức cắm nhỏ gọn tám (OSFP) và bốn hình thức cắm nhỏ gọn (QSFP). Các công tắc Spectrum-4, kết hợp với danh mục LinkX, cho phép mạng trí tuệ nhân tạo tiết kiệm năng lượng nhất trên thị trường.
- Giấy phép Spectrum-X mở khóa toàn bộ sức mạnh của Spectrum-4 và BlueField-3, cho phép các tính năng mở rộng RoCE và các cài đặt tham số mạng tối ưu hóa để cung cấp hiệu suất trí tuệ nhân tạo nâng cao.
Thông số kỹ thuật đặt hàng Nền tảng Mạng lưới Spectrum-X
Để biết thêm thông tin về việc đặt hàng các công tắc Spectrum-4, BlueField-3 DPU và cáp và bộ chuyển đổi LinkX, vui lòng xem bảng dữ liệu công tắc SN5000 và bảng dữ liệu BlueField-3 DPU.
- Giấy phép Spectrum-X là một giấy phép cho phép bộ tính năng được định nghĩa bằng phần cứng và được tăng tốc bằng phần mềm cần thiết cho trí tuệ nhân tạo sinh hoạt trên mạng Ethernet. Nếu không có giấy phép này, các tính năng này, bao gồm các phần mở rộng RoCE, không khả dụng. Đối với việc triển khai sử dụng RoCE tiêu chuẩn nguyên bản, không cần giấy phép Spectrum-X. Giấy phép Spectrum-X được cấp cho từng công tắc nhưng mở khóa giá trị từ đầu đến cuối từ công tắc đến DPU đến GPU.
- Số phần giấy phép Spectrum-X được đóng gói để bao gồm hỗ trợ. Hỗ trợ có sẵn với các thỏa thuận dịch vụ (SLAs) tiêu chuẩn doanh nghiệp và quan trọng cho các giai đoạn ba và năm năm. Được khuyến nghị rằng các mức hỗ trợ cho giấy phép Spectrum-X phù hợp với mức hỗ trợ phần cứng công tắc cơ bản. Nghĩa là, hỗ trợ Spectrum-X quan trọng cho doanh nghiệp nên được kết hợp với hỗ trợ phần cứng quan trọng cho doanh nghiệp và ngược lại. Vui lòng liên hệ đại diện NVIDIA của bạn để biết số phần gia hạn động. Giấy phép Spectrum-X áp dụng cho cả NVIDIA Cumulus® Linux và các triển khai môi trường cài đặt Mạng mở (ONIE) của Spectrum-4.
- Giấy phép có thể được mua kèm theo khi mua công tắc hoặc có thể được thêm vào sau đó như một mua độc lập khi bạn cần chức năng Spectrum-X.
→ NVIDIA Spectrum-X, bộ chuyển mạch Spectrum-4, DPU BlueField-3 và quang học 400G LinkX hiện đã có sẵn. Tìm hiểu thêm về chúng tại đây.
Bài viết liên quan
- GPUDirect RDMA là gì?
- GPUDirect Storage là gì?
- Hyperscale computing: Làm cách nào để đạt được năng lực điện toán quy mô lớn tốt hơn
- AI trong ngành Logistics: Những lợi ích chính và ứng dụng
- Máy chủ tăng tốc cho AI thúc đẩy tăng trưởng chi tiêu cho trung tâm dữ liệu
- Cluster Computing – Thế nào là điện toán cụm?