Cụm máy chủ (Cluster) là gì?
Trước tiên, cần xem xét như thế nào thì nằm ngoài định nghĩa của một cụm máy chủ: Nó không phải là một máy tính duy nhất có nhiều GPU hoặc nhiều socket CPU.
Sự phân loại chung của một máy chủ / hệ thống như vậy sẽ được coi là một node chuyên cho xử lý (compute node), cụ thể hơn là node xử lý GPU, sẽ được thảo luận ở phần sau.
Vậy một cụm chính xác là gì? Một cụm máy chủ về cơ bản là một tập hợp các hệ thống máy tính được kết nối với nhau để cung cấp giải pháp trọn gói, được tối ưu hóa mạnh mẽ cho phép xử lý song song các công việc tính toán như đào tạo học sâu (Deep Learning), mô phỏng động lực học phân tử AMBER hoặc thậm chí một số phần mềm xử lý CPU cũ hơn như LAMMPS được sử dụng trong siêu máy tính và phòng thí nghiệm quốc gia. Tuy nhiên, chúng ta có thể chia nhỏ cụm thành năm thành phần:
1) Rack (Tủ rack)
2) Management Node (Node quản lý)
3) Compute Node (Node xử lý)
4) Storage Node (Node lưu trữ)
5) Network Switch (Các bộ chuyển mạch)
Rack
Rack (hay tủ rack) là thùng chứa / thùng máy / tủ bên ngoài chứa các máy chủ dạng rackmount, thiết bị chuyển mạch, PDU, hệ thống cáp được tổ chức bên trong. Rack có thể có kích thước bằng một nửa như 24U, đến 48U (chữ “U” hoặc thường được gọi là “RU” là đơn vị đo lường để xác định “chiều cao” của máy chủ).
NTC thường khuyến nghị một tủ rack 42U, vì phần diện tích chiếm dụng cũng giống như một nửa rack và cho phép mở rộng quy mô cho các hệ thống bổ sung trong tương lai sẽ được thêm vào cụm.
Management Node (node quản lý)
Một node quản lý, thường được gọi là Login Node, hoặc Head Node, là bộ điều phối chính của cụm. Đây là hệ thống có tính khả dụng cao, cung cấp một hệ thống duy nhất để đăng nhập, để sinh viên, các nhà nghiên cứu có thể đăng nhập, chạy và lên lịch công việc cho dự án của họ.
Một phần tuyệt vời về cách node quản lý vận hành là nó dựa trên phần mềm quản lý cụm được cài đặt, chẳng hạn như phần mềm Bright Cluster Management hoặc thường được gọi đơn giản là “Bright”. Bright giúp theo dõi các node, cho phép vận hành / ghi ảnh các node mới được thêm vào và quan trọng nhất, nó liên kết tất cả các thành phần của hệ thống cụm lại với nhau.
Một ví dụ về một trường hợp của node quản lý:
Giả sử một node cấp dưới (ví dụ, node xử lý) được bật trong cụm. Node cấp dưới này sẽ khởi động thông qua khởi động PXE trong mạng management tới node quản lý và node quản lý sẽ nhận ra, thông qua địa chỉ MAC, vai trò tương ứng của node xử lý. Node quản lý sẽ triển khai hoặc chụp ảnh boot image đã lưu tương ứng trở lại node cấp dưới; sau đó node phụ sẽ khởi động, thiết lập phần mềm và mạng cho mỗi boot image cụ thể, và sẵn sàng nhận các job gửi đến để xử lý.
Các Compute Node (node xử lý, node điện toán)
Các node xử lý là hệ thống “công nhân”, về bản chất, là các hệ thống thực hiện công việc xử lý nặng nề nhất.
Chúng có thể được chia thành hai loại chính:
1) Các node CPU, và;
2) Các node xử lý được tăng tốc bởi GPU.
Các node CPU thường sử dụng một lượng lớn lõi CPU như CPU AMD EPYC, lõi xử lý tần số cao (nhanh) hoặc kết hợp cả hai.
Các node GPU có thể được trang bị GPU, FPGA hoặc các bộ tăng tốc xử lý song song (parallel accelerator) khác, dựa vào bộ nhớ và sức mạnh xử lý song song khổng lồ của các thiết bị cấp doanh nghiệp.
Nhiều nhóm nghiên cứu sẽ có một tủ rack chứa cả các node xử lý CPU và GPU, nơi số lượng cụm có thể linh hoạt và phù hợp với các trường hợp sử dụng cụ thể. Bằng cách này, cụm có thể linh hoạt và phục vụ nhiều người dùng và nhiều ứng dụng yêu cầu nhiều loại phần cứng hơn. Ví dụ: các ứng dụng tăng tốc CPU có thể có các node CPU hiệu suất cao để chạy, trong khi các ứng dụng tăng tốc bởi GPU có các node GPU để chạy.
Storage Node (Các node lưu trữ)
Như tên của nó, thành phần lưu trữ là một “ao”(pool) lưu trữ được chia sẻ chung có thể chứa dữ liệu kết quả, hình ảnh, mã code hoặc bất kỳ thứ gì khác đặc thù cho một nhóm nghiên cứu. Lưu trữ có thể là các rack NAS (Networked Attached Storage) đơn giản hoặc các hệ thống lưu trữ song song tốc độ cao, phức tạp hơn như các giải pháp DDN, Panasas,…
Mỗi thành phần này có thể được giải thích và mổ xẻ sâu hơn trong bối cảnh riêng của chúng. Thông thường, NTC đề xuất một kho lưu trữ / gắn kết được chia sẻ duy nhất có thể được kết hợp trong node quản lý và thường là cách triển khai đơn giản nhất để đảm bảo không gian lưu trữ được chia sẻ ở trung tâm.
Kết nối mạng
Kết nối mạng trong một cụm thường có hai dạng:
1) Mạng dành cho quản lý (Management Network), và;
2) Mạng nội bộ, và có thể tùy chọn với mạng tốc độ cao (hsnetwork) với chuẩn tốc độ 10/25/40/100/200GbE, InfiniBand,…
Mạng quản lý và hạ tầng nhìn chung là mạng Gigabit giá rẻ và không tốn kém được sử dụng trong phần mềm Quản lý cụm để cho phép hệ thống khởi động, cấp phát và quản lý nội bộ (IPMI) cho tất cả các node quản lý và các node xử lý.
Mạng nội bộ nói chung là mạng kết nối giữa node quản lý với các node xử lý và là mạng chính để dữ liệu được truyền giữa các node xử lý và node quản lý trong quá trình chạy các job. Thông thường, nó có thể là 10GBase-T (hoặc tối thiểu 1GbE cho các cụm AMBER) cho kết nối và kết nối tốc độ cao như 100GbE hoặc InfiniBand. Với mạng tốc độ cao này, mạng này thường có entry point (hoặc uplink) từ mạng bên ngoài để các nhà nghiên cứu và sinh viên đăng nhập từ xa vào cụm để chạy hoặc lên lịch các job của họ.
Nhìn chung, các cụm có khả năng tùy biến cao và thường được điều chỉnh cho phù hợp với các nhóm hoặc tổ chức nghiên cứu.
Vui lòng liên hệ với NTC ngay hôm nay để các chuyên viên của bộ phận giải pháp có thể làm việc với bạn và tìm phương án tối ưu cho một hệ thống cụm phù hợp, đáp ứng nhu cầu đầu tư.
Bài viết liên quan
- AI trong ngành Logistics: Những lợi ích chính và ứng dụng
- Máy chủ tăng tốc cho AI thúc đẩy tăng trưởng chi tiêu cho trung tâm dữ liệu
- Tôi có cần CPU kép không?
- Xây dựng hệ thống dữ liệu hiệu suất cao cho AI với VAST Data Platform
- Hướng dẫn lựa chọn GPU phù hợp cho AI, Machine Learning
- LLM: Lịch sử và tương lai của các mô hình ngôn ngữ lớn