Giới thiệu
Không phải mọi hệ thống điện toán đều nên được đặt trên đám mây. Các đội nhóm làm việc về suy luận, mô phỏng hoặc huấn luyện AI thường được hưởng lợi từ việc giữ tài nguyên điện toán ngay tại chỗ. Khi các tập dữ liệu lớn, nhạy cảm hoặc thường xuyên được truy xuất, việc chạy tác vụ tại chỗ sẽ tránh được độ trễ truyền dẫn, cũng như việc phải truy cập đám mây liên tục và cấp quyền kiểm soát phần cứng hoàn toàn.
Máy chủ GPU mang lại khả năng tăng tốc mạnh mẽ cho các tác vụ này, và việc triển khai chúng ngay tại chỗ giúp cắt giảm chi phí đám mây định kỳ. Nó cũng giúp loại bỏ sự phụ thuộc vào hạ tầng dùng chung và cho phép các team làm việc mà không bị giới hạn sử dụng hoặc xung đột.
Tôi có thể triển khai máy chủ GPU của mình tại các phòng máy chủ của công ty không?
Hẳn nhiên! Thực tế, nhiều doanh nghiệp không có trung tâm dữ liệu chuyên dụng để đặt các tủ rack và máy chủ GPU. Các doanh nghiệp nhỏ và phòng thí nghiệm không có trung tâm dữ liệu tiêu chuẩn đầy đủ. Thay vào đó họ phải làm việc với phòng máy chủ, tủ chứa và không gian được chuyển đổi. Nhưng họ vẫn có thể hỗ trợ cho các hệ thống GPU thực thụ miễn là việc triển khai phải được lên kế hoạch một cách chu đáo.
- Tiêu thụ điện năng: Máy chủ GPU tiêu thụ rất nhiều điện năng. Trong tủ rack hoặc khung đặt máy, ổ cắm điện có thể không dễ tiếp cận. Đối với việc triển khai nhiều GPU, hãy cân nhắc lắp đặt tủ với ổ cắm ba pha 208V hoặc một pha 240V.
- Không gian: Không gian là một thách thức lớn, đặc biệt là trong các phòng không được thiết kế riêng để lắp đặt tủ rack. Các tủ kín vừa khít cần được lên kế hoạch cẩn thận để quản lý cáp và tiếp cận các dịch vụ.
- Làm mát: Để đảm bảo cho hiệu năng tối đa đòi hỏi việc tản nhiệt hiệu quả. Nếu luồng không khí bị chặn hoặc nguồn điện không đều, hệ thống sẽ tự động giảm xung (thermal throttling) hoặc thậm chí ngắt nguồn. Các giải pháp bao gồm lắp đặt hệ thống điều hòa không khí và tạo luồng xả khí trong tủ.
Lựa chọn phần cứng cho máy chủ GPU
Thiết lập cấu hình triển khai của bạn với GPU để làm sao phù hợp với mục tiêu xử lý và nằm trong ngân sách dành cho hệ thống tản nhiệt và cấp nguồn của bạn.
- Kiểu máy chủ (form factor): Nếu phòng máy chủ hoặc tủ máy chủ của bạn có không gian hạn chế, bạn vẫn có thể triển khai hệ thống GPU lớn để cung cấp sức mạnh cho hệ thống HPC của mình.
- Nếu phòng có không gian hẹp, hãy cân nhắc máy chủ rack có chiều sâu ngắn (short-depth).
- Có thể chọn máy trạm có thể lắp lên rack. Mặc dù chiếm nhiều diện tích rack nhiều hơn, nhưng chúng có thể cho phép lưu thông không khí tốt hơn nếu không được lắp ghép chặt chẽ với nhau và có chiều sâu ngắn hơn so với máy chủ tiêu chuẩn.
- Lựa chọn GPU: Trong khi các card đồ họa hàng đầu và cao cấp đang được ưa chuộng thì các GPU đơn giản hơn có thể phù hợp với không gian và cấu hình điện năng của bạn, và vẫn có thể mang lại hiệu suất vượt trội.
- Nếu khối lượng công việc của bạn cần hiệu năng cực cao, hãy chọn những card đồ họa mạnh mẽ như NVIDIA H200 NVL và RTX PRO 6000 Blackwell. Nhưng hãy chuẩn bị tinh thần cho mức tiêu thụ điện năng lớn và yêu cầu tản nhiệt cao của chúng.
- Đối với khối lượng công việc mang tính phân tán, card có công suất thấp hơn có thể cung cấp khả năng song song hóa tốt hơn.
- Nếu luồng không khí trong phòng máy chủ của bạn bị hạn chế, GPU làm mát chủ động có thể giúp tản nhiệt so với GPU làm mát thụ động.
- Bạn không cần phải lắp đầy tất cả các khe cắm. Số lượng GPU ít nhưng có VRAM cao hơn có thể cải thiện khả năng tản nhiệt tốt hơn so với việc lắp đầy các slot.
- CPU và Bộ nhớ: CPU không nên làm tắc nghẽn thông lượng của GPU.
- Sử dụng CPU có số làn PCIe cao và đủ số lượng lõi để giữ cho bus kết nối luôn được dùng hết.
- Bộ nhớ phải phù hợp với nhu cầu công việc. Đào tạo và mô phỏng AI có thể cần 128GB hoặc hơn.
- Lưu trữ và mạng: Lưu trữ cục bộ nhanh giúp tránh tình trạng dừng I/O.
Với tất cả những quyết định về cấu hình này, việc đưa ra lựa chọn đúng đắn có thể sẽ khó khăn. Đội ngũ kỹ thuật tại Thế Giới Máy Chủ sẽ giúp bạn cấu hình và xây dựng giải pháp tốt nhất cho nhu cầu và các hạn chế về triển khai của bạn.
Lên kế hoạch về nguồn cấp điện
Đối với bất kỳ triển khai máy chủ HPC nào, bạn cần nguồn điện ổn định, thông lượng cao. Hãy sử dụng các công cụ tính toán BTU khi cấu hình máy chủ và sau đó cộng thêm mức dự phòng 30%.
- Yêu cầu về mạch: Máy chủ GPU sử dụng nguồn điện lớn, thường cao hơn so với mức mà các ổ cắm tiêu chuẩn có thể cung cấp an toàn.
- Ưu tiên mạch 208V với cầu dao ngắt 20A hoặc 30A.
- Tránh chạy máy chủ công suất cao trên đường dây 15A/120V dùng chung.
- Kiểm tra tổng mức tiêu thụ, không chỉ TDP của GPU – quạt, ổ đĩa và CPU đều được cộng lại.
- Phân phối điện: Sử dụng PDU có đồng hồ đo điện rõ ràng. Giám sát trực tuyến giúp phát hiện các nhánh quá tải trước khi chúng bị ngắt, đóng vai trò như bộ ngắt tải để bảo vệ chống lại tình trạng sụt áp.
- PDU dọc giúp tiết kiệm không gian tủ rack.
- Loại ngang hoạt động tốt hơn trong các tủ rack cạn.
- Nếu thời gian hoạt động là quan trọng, hãy sử dụng UPS chuyển đổi kép để tăng cường khả năng dự phòng.
Quản lý và giám sát nguồn điện và hệ thống tản nhiệt là một phần thiết yếu của đội ngũ vận hành trung tâm dữ liệu. Hãy sử dụng công cụ quản lý cụm như OpenHPC hoặc TrinityX để giám sát và thực thi tác vụ thông qua IPMI.
Làm mát và luồng không khí
Nhiệt độ tăng rất nhanh, đặc biệt là trong không gian hạn chế. GPU hiệu suất cao tạo ra hàng trăm watt tải nhiệt mỗi chiếc, và khi bạn xếp chồng nhiều card vào một thùng máy, đường dẫn luồng khí trở nên rất quan trọng. Không gian quan trọng hơn bản thân máy chủ.
- Nguyên lý luồng không khí: Sử dụng thiết bị có luồng không khí từ trước ra sau và áp dụng nguyên lý “không khí nóng bốc lên cao”.
- Chừa khoảng trống phía sau máy chủ để xả khí.
- Giữ cho lỗ thông hơi sạch sẽ và không bị cản trở.
- Bạn có thể sử dụng cửa thông gió kép với phần dưới là cửa hút và phần trên là cửa xả.
- Điều chỉnh cho các tủ không chuyên dụng: Các tủ lắp và không gian cải tạo thường thông gió kém.
- Thêm quạt ống dẫn luồng thẳng hàng để hút không khí ấm ra ngoài.
- Thoát khí ra trần nhà hoặc không gian thông gió liền kề.
- Lắp đặt lỗ hồi hơi (luồng quay trở lại) nếu phòng bị bịt kín.
- Tiếng ồn, An toàn và Chi phí: Hầu hết các máy chủ đều không yên tĩnh và công suất điện cao có thể gây nguy cơ hỏa hoạn.
- Sử dụng tấm cách âm và lớp chống cháy lót cho phòng máy chủ.
- Chạy các tải dài qua đêm để tránh tiếng ồn và giảm chi phí điện.
Việc chạy GPU trong tủ đã được chứng minh là hiệu quả, nhưng cần phải có bản thiết kế và triển khai phù hợp. Nhiệt độ là kẻ thù của phần cứng, có thể làm giảm tuổi thọ và tăng nguy cơ hỏng hóc. Tản nhiệt, nếu không muốn nói là quan trọng nhất, là yếu tố quan trọng nhất khi triển khai phần cứng HPC.
Câu hỏi thường gặp về việc triển khai máy chủ GPU ở những không gian phi truyền thống
Tôi có thể chạy máy chủ GPU trong văn phòng nhỏ hoặc tủ chứa mà không cần trung tâm dữ liệu đầy đủ không?
Có. Với kế hoạch phù hợp về nguồn điện, hệ thống làm mát và không gian, các hệ thống GPU hiệu suất cao có thể hoạt động đáng tin cậy trong các trung tâm dữ liệu nhỏ, phòng nhỏ và thậm chí cả tủ chứa phổ thông.
Tôi cần giải pháp nguồn điện nào để chạy hệ thống GPU hiệu suất cao tại chỗ?
Sử dụng mạch 208V với cầu dao 20A hoặc 30A. Tránh sử dụng ổ cắm điện văn phòng 220V tiêu chuẩn cho máy chủ nhiều GPU. Bộ lưu điện (UPS), bộ phân phối điện (PDU) và bộ ngắt quá tải là những thứ rất cần thiết.
Tôi có thể sử dụng mạch điện dân dụng cho máy chủ cấp doanh nghiệp không?
Máy trạm đơn GPU có thể hoạt động trên đường dây 15A hoặc 20A 220V, nhưng máy trạm nhiều GPU hoặc máy chủ rackmount sẽ vượt quá mức tiêu thụ đó khi tải. Không nên chạy chúng trên mạch điện dùng chung trong nhà.
Tôi nên đưa những loại công cụ quản lý từ xa nào vào triển khai quy mô nhỏ?
Hãy tìm máy chủ có hỗ trợ IPMI hoặc BMC và quản lý chúng thông qua phần mềm như OpenHPC hoặc TrinityX. Những phần mềm này cho phép bạn khởi động lại máy, theo dõi nhiệt độ và cập nhật firmware từ xa mà không cần phải bảo trì hệ thống vật lý trong tủ. Liên hệ Thế Giới Máy Chủ để tìm hiểu thêm.
Làm thế nào để tôi quyết định sử dụng GPU nào cho việc triển khai của mình?
Hãy bắt đầu với khối lượng công việc của bạn. Sau khi đánh giá nhu cầu hiệu năng xử lý, hãy cân bằng nó với không gian, nhiệt độ và công suất khả dụng. Đối với CFD và mô phỏng, hãy sử dụng GPU có FP64 mạnh như H200 NVL. Đối với kết xuất và mô phỏng, hãy sử dụng GPU có khả năng mã hóa và giải mã video như RTX PRO 6000 Blackwell. Đối với khối lượng công việc cường độ thấp có thể song song hóa, hãy sử dụng nhiều GPU tầm trung như RTX 4500 Ada.
Kết luận
Máy chủ GPU không cần một trung tâm dữ liệu đầy đủ. Nếu khối lượng công việc đòi hỏi nguồn điện và khả năng kiểm soát cao, một tủ chứa hoặc phòng thiết bị nhỏ có thể đáp ứng được nếu được thiết kế phù hợp.
Chọn enclosure và tủ rack phù hợp. Nắm rõ giới hạn công suất hoặc lắp đặt ổ cắm 208V. Đảm bảo luồng không khí lưu thông phù hợp cho việc làm mát. Lên kế hoạch quản lý từ xa và kết nối mạng để đơn giản hóa việc thiết lập máy chủ.
Các nhóm nghiên cứu và triển khai AI, nhóm mô phỏng kỹ thuật và phòng thí nghiệm nghiên cứu khoa học đời sống có thể vận hành cơ sở hạ tầng GPU thực tế tại chỗ với cấu hình phù hợp. Nếu bạn cần hỗ trợ thiết kế hệ thống phù hợp với không gian và khối lượng công việc của mình, Thế Giới Máy Chủ sẽ hướng dẫn bạn trong suốt quá trình cấu hình, xây dựng, bàn giao và triển khai.