Ảo hóa GPU không hề dễ dàng nếu không có những đánh giá phù hợp, ngay từ những bước đầu tiên. Trong môi trường VMware, một số vấn đề quản trị viên hệ thống cần phải xem xét kỹ, chẳng hạn như vấn đề license, các yêu cầu về tài nguyên và khả năng cấp phát phần cứng.
Ảo hóa GPU không còn chỉ dành riêng cho các hệ thống VDI, mà ngày càng có nhiều ứng dụng sử dụng vGPU: cho máy tính để bàn, máy chủ và các hệ thống hiệu suất cao. Do đó, quản trị viên phải nhận ra rằng việc ảo hóa GPU không giống như ảo hóa CPU hoặc RAM. Nó yêu cầu cần có một cách tiếp cận khác khi thiết kế, cấp phép và triển khai, đặc biệt là đối với ảo hóa GPU trên nền VMware.
Khi nói đến hệ thống VDI, quản trị viên sẽ thấy nhiều vấn đề liên quan đến các tài nguyên I/O, CPU và bộ nhớ cần thiết. Những thứ này rất quan trọng trong việc thiết lập hệ thống VDI. Tuy nhiên, một trong những thứ mà quản trị viên không phải lúc nào cũng chú ý đến đó chính là các GPU, những cỗ máy xử lý chuyên dụng cho các tác vụ có liên quan như AI, đồ họa,..
Quản trị viên cần đưa GPU ảo vào trong phương án của mình để xây dựng thành công một hệ thống VDI và trong khi hai nhà cung cấp chính cho vGPU là NVIDIA và AMD, thì các sản phẩm NVIDIA có lịch sử lâu đời hơn và thường đi cặp với các sản phẩm VMware.
Cân nhắc về license, nhu cầu tài nguyên trước khi ảo hóa VMware GPU
Mặc dù thực tế GPU là phần cứng, thường được gắn một hypervisor kèm theo, nhưng mỗi GPU là duy nhất. Quản trị viên có thể trộn và kết hợp một số phần cứng trong GPU, điều này có thể trở thành thách thức đối với một số người. Ví dụ: quản trị viên có thể có các mẫu card GPU khác nhau trong cùng một cụm VMware, cho phép quản trị viên chạy các máy ảo trên các phân lớp GPU khác nhau để có hiệu suất tối ưu, chi phí hợp lý và tính linh hoạt.
Tuy nhiên, mỗi máy (host) trong cụm đó phải chạy nội bộ cùng một GPU. Vì vậy, trong khi máy host của quản trị viên có thể có các model GPU khác nhau, mỗi host chỉ có thể cài đặt một model. Nó sẽ tương tự như việc có hai model CPU khác nhau trong cùng một nền tảng máy chủ; quản trị viên không thể có hai CPU khác nhau và duy trì một hypervisor ổn định.
Điều này có nghĩa là quản trị viên phải quan tâm nhiều hơn đến những thứ như VMware Distributed Resource Scheduler và High Availability của VMware để đảm bảo workload của họ chạy trên đúng máy chủ GPU mà họ đã thiết lập cho mỗi workload ảo. Điều này không có nghĩa là quản trị viên không thể di chuyển workload từ host có GPU cụ thể sang máy chủ khác có GPU khác. Để làm như vậy, quản trị viên phải tắt máy khách trước và đảm bảo license của họ đã được thiết lập, nhưng họ có thể sử dụng vMotion để di chuyển khách từ máy chủ cụ thể sang máy chủ khác với cùng một model GPU.
Quản trị viên phải đảm bảo họ có các host với GPU phù hợp để xử lý failover hoặc tốt hơn là chọn các GPU có thể đáp ứng nhiều loại workload hơn để chuẩn hóa trên một mô hình chung. Một trong những điều tuyệt vời về VMware và Nvidia là khả năng phân bổ tối đa bốn GPU cho mỗi máy ảo. Quản trị viên có thể mở rộng quy mô đến các GPU cấp trung bình và cao cấp hơn, chẳng hạn như Nvidia Tesla T4 hoặc Quadro, để xử lý workload cao hơn mà không phá vỡ hệ thống hoặc yêu cầu một số GPU phần cứng khác nhau để hỗ trợ nhiều “knowledge worker” truyền thống hơn.
Ngoài ra, quản trị viên phải thay đổi cài đặt đồ họa cho máy chủ từ chia sẻ thành chia sẻ trực tiếp. Nếu bước này bị bỏ qua, máy ảo của quản trị viên sẽ không khởi động.
Sau khi quản trị viên đã đặt GPU của họ trên một nhóm máy chủ cụ thể, họ cũng sẽ yêu cầu license. Với GPU, quản trị viên phải có license phần mềm cho phép trình điều khiển truy cập chức năng GPU từ xa. Mặc dù điều này thêm một license khác để quản lý, nhưng nó mang lại cơ hội tuyệt vời cho quản trị viên.
Điều này là do các tính năng của vGPU được xác định bởi license chứ không phải bởi trình điều khiển. Điều này có nghĩa là, để bật hoặc tắt một số chức năng nhất định, quản trị viên phải có license cụ thể để làm như vậy. Đây là một lợi ích to lớn cho những quản trị viên, những người có thể lo lắng về việc phải cấu hình lại các cài đặt dựa trên nhu cầu.
Ngoài ra, nếu quản trị viên đang sử dụng nhiều GPU, họ phải có license như NVLink của Nvidia để kết hợp mọi thứ lại với nhau. Quản trị viên không thể ghép nối các thành phần với nhau từ một số GPU để phân bổ hai đến bốn GPU cho mỗi máy ảo; chúng phải được cấp phát đầy đủ các thẻ.
Các cân nhắc bổ sung để đảm bảo triển khai vGPU thành công
Xem xét các vGPU chia sẻ công nghệ giống như hypervisor, chúng cũng chia sẻ các lợi ích bảo mật giống nhau. Mặc dù bảo mật video có thể không phải là ưu tiên hàng đầu đối với một số quản trị viên, nhưng nó sẽ phát huy tác dụng khi quản trị viên sử dụng GPU cho tính toán hiệu suất cao, học sâu và AI.
Điều cuối cùng mà quản trị viên nên biết là nền tảng máy chủ phần cứng của GPU rất có thể sẽ thay đổi. GPU là những chiếc card “trâu cày” nghiêm túc và chúng yêu cầu một framework lý tưởng để hỗ trợ. Nền tảng phần cứng không được tối ưu hóa GPU có thể thiếu không gian bên trong vật lý cần thiết, khả năng làm mát và sức mạnh để hỗ trợ một số card GPU nhất định.
Quản trị viên phải làm việc với cả VMware và Nvidia để có nền tảng phần cứng được chứng nhận và đảm bảo họ chọn đúng card cho các trường hợp sử dụng, cũng như các yêu cầu về nguồn và làm mát trong trung tâm dữ liệu của họ. Những thách thức đi kèm với công nghệ ảo hóa GPU chắc hẳn đã quen thuộc với quản trị viên, với một vài điểm khác biệt. Ảo hóa GPU không phải là một trò chơi hoàn toàn mới; nó chuyển trò chơi sang một lĩnh vực khác. Nếu quản trị viên biết những điều kỳ quặc, họ có thể tránh chúng và triển khai thành công.
Bài viết liên quan
- Nvidia ‘đang chuẩn bị cho thời kỳ AI không dùng GPU’
- NVIDIA World Foundation Model: Chìa khóa để thúc đẩy trí tuệ nhân tạo vật lý – Physical AI
- Có gì mới với NVIDIA tại sự kiện CES 2025?
- Cải thiện khả năng làm mát GPU trong hạ tầng AI
- Các chuyên gia AI của NVIDIA dự báo gì cho năm 2025
- Sovereign AI là gì?