Trước khi bắt đầu hãy đảm bảo máy của bạn đáp ứng đủ các yêu cầu sau:
- Card đồ họa NVIDIA: Đây là điều kiện tiên quyết để xác định bạn có cài đặt được NVIDIA Container Toolkit hay không bởi vì NVIDIA Container Toolkit chỉ hỗ trợ và được thiết kế để hoạt động với Card đồ họa NVIDIA.
- Driver NVIDIA: Đảm bảo máy của bạn đã cài Driver mới nhất và hoạt động ổn định trên máy của bạn. Có thể kiểm tra bằng lệnh:
nvidia-smi
Nếu trả về 1 khung bao gồm các thông tin về Card đồ họa, thông số GPU thì bạn đã cài đặt đúng - Docker Engine: Docker phải được cài đặt xong và hoạt động trên máy của bạn, bạn có thể kiểm tra với lệnh dưới đây để xem phiên bản Docker của bạn
docker --version
- Hệ điều hành tương thích: Các hệ điều hành Linux phổ biến như Ubuntu, CentOS, Debian,… đều được hỗ trợ và hoạt động tốt với NVIDIA Container Toolkit.
NVIDIA Container Toolkit là gì?
NVIDIA là bộ công cụ giúp giúp người dùng xây dựng và chạy các container Docker được tăng tốc bằng GPU. Bộ công cụ bao gồm các thư viện thực thi container và các tiện ích để tự động cấu hình các container và tận dụng GPUs của NVIDIA
Có 2 cách cài đặt NVIDIA Container Toolkit phổ biến hiện nay:
- Cài đặt thông qua Docker Container
- Cài đặt trực tiếp về trên hệ điều hành của bạn
Vậy sự khác biệt giữa 2 cách cài đặt trên là gì? Sự khác biệt nằm ở chỗ:
Cài trực tiếp vào hệ điều hành:
- Ưu điểm:
Toàn quyền kiểm soát hệ thống bao gồm dirver, toolkit, runtime,…
Dễ theo dõi log, tài nguyên hệ thống,…
Dễ tích hợp với các hệ thống khác như Kubernets,…
Dễ dàng debug khi xuất hiện lỗi
- Nhược điểm:
Nếu cài sai hoặc bị xung đột sẽ gây lỗi hệ thống nên cần phải hiểu rõ về Linux và hệ thống NVIDIA
Không dễ dàng chuyển sang máy khác như Docker
Khó rollback về phiên bản cũ vì cần phải gỡ cài đặt phức tạp
Cài đặt thông qua Docker Container:
- Ưu điểm:
An toàn cho những ai sợ bị xung đột với hệ thống
Có thể test nhanh nhiều phiên bản
Có thể tái sử dụng trên bất kỳ máy nào chỉ cần có Docker và driver tương thích
Nếu có xuất hiện lỗi có thể dễ dàng rollback với việc pull lại images cũ
- Nhược điểm:
Nếu gặp lỗi thì sẽ khó dubug buộc phải can thiệp hệ thống host để sửa chứ không dễ dàng như cài trực tiếp về máy
Container không có độ ổn định lâu dài, khi có phiên bản mới chỉ có thể gỡ images cũ cài lại bản mới
Việc cài đặt NVIDIA Container Toolkit thông qua Docker thật sự rất dễ dàng, các bạn có thể tham khảo hướng dẫn cài đặt ở bài viết: NVIDIA NIM: Biến ý tưởng ứng dụng AI thành hiện thực trong tầm tay
Và sau đây mình sẽ hướng dẫn chi tiết cách cài đặt NVIDIA Container Toolkit trực tiếp vào hệ điều hành trên máy của bạn. Ở đây mình sẽ sử dụng Ubuntu phiên bản 24.04, nếu ai sử dụng Debian cũng có thể áp dụng những gì sắp hướng dẫn dưới đây, tuy nhiên với những ai đang xài các hệ điều hành khác Ubuntu hay Debian thì có thể xem hướng dẫn cài đặt theo đường link sau đây: Installing the NVIDIA Container Toolkit
Ngoài ra để xem liệu rằng hệ điều hành của bạn có được hỗ trợ để cài đặt NVIDIA Contanier Toolkit hay không các bạn có thể kiểm tra tại: Platform Support
Cài đặt NVIDIA Container Toolkit
Khởi động Terminal Ubuntu ( hoặc bất kì Terminal nào bạn đang sử dụng )
- Cấu hình Repositiry:
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \ && curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \ sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \ sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
*Ảnh minh họa (ấn vào để phóng to): - Cập nhật danh sách các gói từ kho lưu trữ:
sudo apt-get update
- Cài đặt gói NVIDIA Container Toolokit về máy của bạn:
export NVIDIA_CONTAINER_TOOLKIT_VERSION=1.17.8-1 sudo apt-get install -y \ nvidia-container-toolkit=${NVIDIA_CONTAINER_TOOLKIT_VERSION} \ nvidia-container-toolkit-base=${NVIDIA_CONTAINER_TOOLKIT_VERSION} \ libnvidia-container-tools=${NVIDIA_CONTAINER_TOOLKIT_VERSION} \ libnvidia-container1=${NVIDIA_CONTAINER_TOOLKIT_VERSION}
*Ảnh minh họa:
Sau khi tải xong gói NVIDIA Container Toolkit, chúng ta cần cấu hình lại runtime của container:
sudo nvidia-ctk runtime configure --runtime=docker
*Ảnh minh họa:
Cấu hình xong chúng ta sẽ khởi động lại Docker daemon:
sudo systemctl restart docker
Sau khi làm xong các bước trên, chúng ta sẽ sử dụng lệnh
docker run --rm --gpus all ubuntu nvidia-smi
để kiểm tra xem NVIDIA Container Toolkit đã hoạt động chưa
Nếu trả về 1 bảng thông tin như dưới đây thì chúc mừng bạn đã cài đặt thành công NVIDIA Container Toolkit
Kết luận
NVIDIA Container Toolkit là một công cụ mạnh mẽ cho bất kì ai đang muốn khai thác sức mạnh GPU của NVIDIA trong môi trường Docker. Với những hướng dẫn trên bạn đã có thể tự tin rằng NVIDIA Container Toolkit đã được cài đặt và đang hoạt động hiệu quả trên hệ thống của mình, sẵn sàng cho việc khám phá các lĩnh vực về trí tuệ nhân tạo như học sâu, tính toán hiệu năng cao,… nơi GPU đóng vai trò then chốt.
Nếu có gì thắc mắc về vấn đề cài đặt NVIDIA Container Toolkit, vui lòng liên hệ mình qua email: anldb@nhattienchung.vn (An Lam)
Bài viết liên quan
- NVIDIA RTX PRO Blackwell Series: Bước nhảy vượt cấp về hiệu hăng GPU
- NVIDIA: Công nghệ Silicon Photonics và Co-Packaged Optics – Thay đổi cuộc chơi trong kỷ nguyên AI và HPC
- NVIDIA NIM: Biến ý tưởng ứng dụng AI thành hiện thực trong tầm tay
- NVIDIA DGX Spark: Giải phóng sức mạnh AI, ngay trên bàn làm việc!
- Tìm hiểu các công nghệ mạng của NVIDIA: Nền tảng cho HPC và AI