Hôm nay chúng ta sẽ cùng tìm hiểu nhanh về mẫu GPU NVIDIA A40. Đây là một GPU PCIe bộ nhớ 48GB, làm mát thụ động (passive cooler), và có cả cổng xuất video khiến nó trở thành một mẫu GPU đáng chú ý. Hơn nữa, với mức TDP 300W thì đây là dòng GPU PCIe Gen4 với TDP tương đối cao có thể được dùng trong các dòng máy trạm và máy chủ GPU chuyên dụng phục vụ cho cả các ứng dụng về thiết kế, lẫn nghiên cứu AI.
Tổng quan về phần cứng của GPU NVIDIA A40 48GB
Bản thân card A40 là một GPU PCIe Gen4 chiều dài đầy đủ có chiều rộng gấp đôi (double-wide). Nó sử dụng tông màu vàng đồng của NVIDIA và trông giống với nhiều mẫu GPU NVIDIA PCIe khác của thế hệ này.
NVIDIA A40 Mặt trước
Đúng như kỳ vọng, đây là thế hệ GPU PCIe Gen4 mới, vì vậy nó có khả năng ghép nối với CPU Intel Xeon Scalable “Ice Lake” thế hệ thứ 3 hoặc AMD EPYC 7002 “Rome” hoặc EPYC 7003 “Milan”. Và đầu cắm PCIe là chuẩn Gen4 x16 tiêu chuẩn.
Đầu cắm NVIDIA A40 PCIe
Làm mát trên GPU là thụ động, nhưng NVIDIA nói rằng card có thể xử lý luồng không khí theo cả hai hướng để không khí có thể được đẩy hoặc kéo qua tản nhiệt. Theo một số hệ quy chiếu, GPU với tấm PCIe I/O của nó là khoảng 1kg / 2,2lbs nên bộ tản nhiệt có sức nặng đáng kể. Chúng tôi cũng nhận được một đầu cắm nguồn GPU chuẩn trung tâm dữ liệu 8 chân ở phía sau của thiết bị. Nó cũng bao gồm các lỗ sẵn dành cho việc gá lên hệ thống của nhà cung cấp cụ thể.
Giá đỡ NVIDIA A40 Ariflow và jack nguồn
Ở phía trên cùng của thiết bị, chúng tôi nhận thấy một điều khá thú vị đó là một đầu nối NVLINK.
NVIDIA A40 NVLINK và Stereo 2
Trên mặt I/O của thiết bị có ba cổng xuất hình. Các cổng xuất này thật ra sẽ bị tắt đi theo mặc định. NVIDIA thực hiện điều này để hỗ trợ SR-IOV hoạt động ngay lập tức cho phần mềm NVIDIA Virtual GPU, chẳng hạn như các phiên bản được sử dụng cho VDI. Người ta cũng có thể kích hoạt cổng xuất màn hình cho các cấu hình phần mềm khác và cũng có thể mở rộng nhiều card A40 để hiển thị bằng Quadro Sync II.
Cổng xuất hình NVIDIA A40 3x DisplayPort
Đây là một vấn đề lớn vì dù có hỗ trợ SR-IOV trên GPU này, nhưng sẽ không có NVIDIA MIG hay Multi-instance GPU trên thẻ này như trên A100.
Đây là hình ảnh một hệ thống với cấu hình 8x NVIDIA A40 bố trí dày đặt lên chassis:
Mặt phía sau ASUS ESC8000A E11
ASUS ESC8000A E11 8x NVIDIA A40 4
Bản thân GPU thế hệ Ampere là GA102-895 với xung nhịp cơ sở 1305MHz và boost lên 1740MHz với 10.752 lõi CUDA. Bộ nhớ 48GB là GDDR6 ở tốc độ 7250MHz và với chiều rộng bus 384-bit cho tổng băng thông bộ nhớ cao nhất là 696GB/s. Bộ nhớ ECC được hỗ trợ trong mẫu GPU này. Dưới đây là thông số kỹ thuật đầy đủ:
Thông số kỹ thuật NVIDIA A40
Tiếp theo, chúng ta sẽ xem xét nhanh hiệu suất trước khi chuyển sang tiêu thụ điện năng và cấu trúc liên kết.
Hiệu suất NVIDIA A40
Về mặt hiệu suất, tại thời điểm này thì tính ra NVIDIA A40 đã ra mắt khá lâu, nhưng chúng tôi chỉ muốn thể hiện một cái nhìn khác so với những gì được công bố trên mạng sử dụng các hệ thống đa GPU. Chúng tôi nhận thấy có sự khác biệt nhỏ giữa các GPU, hoặc các GPU trong hệ thống 8x và 10x GPU lớn hơn mà chúng tôi đã đánh giá, chẳng hạn như ASUS ESC8000A-E11.
Hiệu suất GPU ASUS ESC8000A E11 So với Baseline
Ngoài ra, Tyan Thunder HX FT83A-B7129 có sự khác biệt giữa các tiêu chuẩn học sâu nhanh của chúng tôi.
Hiệu suất của GPU Tyan FT83A B7129
Về mặt hiệu suất, đây là hướng dẫn sơ bộ, nhưng một PCIe NVIDIA A100 đang đào tạo sẽ nhanh hơn gấp đôi và SXM4 80GB 500W A100 cao cấp nhất như chúng tôi đã thử nghiệm.
Tuy nhiên, lý do thực sự mà người ta sử dụng NVIDIA A40 không nhất thiết là vì hiệu suất đào tạo. Thay vào đó, họ có xu hướng bán với giá thấp hơn nhiều so với giải pháp NVIDIA A100 SXM4, đồng thời cung cấp các tính năng vGPU cho các giải pháp như VDI / máy trạm ảo.
Mặc dù chúng tôi không có cầu nối NVLINK, nhưng đây là tám trong số các GPU này trông như thế nào trong hệ thống AMD EPYC không có công tắc PCIe. Như chúng ta có thể thấy, chúng ta chỉ đơn giản có một cấu trúc liên kết 8x PCIe.
Cấu trúc liên kết NVIDIA A40 NVIDIA SMI 8x
Điều này chắc chắn khác với NVIDIA M40 có bốn GPU trên mỗi thẻ từ một vài thế hệ trước. Dưới đây là tám GPU M40, sử dụng hai thẻ PCIe M40 (bốn GPU cho mỗi thẻ):
GPU NVIDIA GRID M40 – nvidia-smi topo m
Một trong những điều tuyệt vời là không còn cần đến cấu trúc PCIe phức tạp hơn cho một card VDI như thế này.
Tiếp theo, chúng ta hãy xem mức tiêu thụ điện năng trước khi đi đến những lời cuối cùng.
Mức tiêu thụ nguồn NVIDIA A40
Mức tiêu thụ điện năng của GPU trung tâm dữ liệu của NVIDIA có xu hướng rất khác với CPU Intel và đôi khi là cả CPU AMD. Cụ thể, các thẻ có giới hạn năng lượng và nếu bạn chạy chúng ở mức tối đa, chúng sẽ cố gắng đạt đến giới hạn của chúng một cách hiệu quả (bạn cũng có thể sử dụng nvidia-smi để đặt giới hạn thấp hơn cho hoạt động năng lượng / hiệu suất thấp hơn.) Vì vậy, nói rằng những điều này tiêu thụ 296-300W ở mức sử dụng 100% là rất an toàn. Thay vào đó, chúng tôi muốn hiển thị mức tiêu thụ điện năng nhàn rỗi của các đơn vị 16x mà chúng tôi có trong hai máy chủ khác nhau. Là những thẻ được làm mát thụ động, những thẻ này không có quạt để quay, vì vậy thời gian nhàn rỗi chỉ dành cho tài nguyên máy tính. Đây là một bộ:
8x NVIDIA A40 lúc không hoạt động
Đây là một cái khác.
8x NVIDIA A40 NVIDIA SMI
Dựa trên điều này, chúng tôi có khoảng 25-31W khi không hoạt động cho mười sáu GPU khác nhau. Đó chỉ là một phần của phương trình. Giữa nguồn điện và quạt được sử dụng, có thể có 20% + công suất được sử dụng trong một hệ thống do các quạt thùng máy chạy để làm mát GPU. Chúng tôi đã có một phần trong đó chúng tôi đã điều tra một số yếu tố ảnh hưởng đến mức tiêu thụ điện năng của máy chủ.
Một khía cạnh quan trọng khi thêm NVIDIA A40 vào hệ thống là bản thân GPU sử dụng 300W, nhưng trong bối cảnh của một hệ thống tổng thể, nó có thể dễ dàng thêm công suất tiêu thụ 360-400W tại PDU tùy thuộc vào hiệu quả cung cấp năng lượng của máy chủ cũng như làm mát. Với mức độ tiêu thụ điện năng do việc làm mát, nhiều hệ thống thế hệ tiếp theo và thậm chí cả hệ thống A100 đang chuyển sang làm mát bằng chất lỏng và đó là lý do tại sao gần đây chúng tôi tập trung vào điều đó.
Lời kết
Nếu bạn đang tìm kiếm một GPU NVIDIA để triển khai tải công việc cho VDI, thì đây thực sự là lựa chọn hàng đầu cho trung tâm dữ liệu nơi có thể xử lý làm mát thụ động. 48GB là lượng bộ nhớ đủ để cấp phát cho các máy ảo. NVIDIA A40 dựa trên kiến trúc Ampere, nhưng thực tế, khi đào tạo cao cấp hơn mọi người sẽ nhìn vào NVIDIA A100 với NVLINK. Vấn đề còn lại là các GPU có khả năng xử lý tải công việc VDI vào ban ngày, sau đó sử dụng GPU để tính toán GPU vào buổi tối.
Bài viết liên quan
- GPUDirect RDMA là gì?
- GPUDirect Storage là gì?
- Đánh giá GPU máy trạm: Nvidia RTX 6000 Ada Generation
- Hướng dẫn lựa chọn GPU phù hợp cho AI, Machine Learning
- So sánh các GPU Tensor Core của NVIDIA: B200, B100, H200, H100, A100
- NVIDIA giới thiệu nền tảng microservice Metropolis để chạy ứng dụng Edge AI trên Jetson