Dell EMC Ready Architecture – Kiến trúc HPC sẵn sàng cho AI & Phân tích dữ liệu
Kiến trúc HPC sẵn sàng cho AI và Phân tích dữ liệu của Dell EMC áp dụng phương pháp thiết kế xây dựng theo khối, giúp khách hàng linh hoạt trong các lựa chọn kiến trúc đáp ứng tốt nhất nhu cầu môi trường của họ. Kến trúc thiết kế bao gồm:
• Server building-blocks
• Network building-blocks
• Storage and File System building-blocks
• Software building-blocks, được mô tả trong phần hướng dẫn triển khai
Kiến trúc HPC sẵn sàng cho AI và Phân tích dữ liệu cung cấp phiên bản hỗ trợ doanh nghiệp sử dụng trình Bright Manager & Bright Cluster Manager for Data Science. Bright Cluster Manager for Data Science cho phép bạn quản lý các cụm Data Science như một thực thể duy nhất. Bạn có thể cung cấp phần cứng, hệ điều hành, HPC, phần mềm Big Data và phần mềm Deep Learning từ một giao diện duy nhất. Đối với những khách hàng muốn sử dụng nguồn mở, Dell EMC cung cấp Ansible playbooks một cách thuận tiện để cài đặt phần mềm cho HPC Ready Architecture cho AI và Phân tích dữ liệu.
Mục đích của tài liệu
Tài liệu này nhằm cung cấp hướng dẫn khá chi tiết về thiết kế và triển khai cho một kiến trúc hội tụ. Tài liệu cung cấp các thông tin sau:
• Tổng quan về kiến trúc — máy chủ, mạng, lưu trữ và phần mềm
• Hướng dẫn cấu hình — máy chủ, mạng, bộ nhớ và phần mềm
• Hướng dẫn tối ưu hóa hiệu suất
• Tổng quan về Ansible playbooks cho Kubernetes và Docker
Tài liệu này dành cho các kiến trúc sư giải pháp và nhân viên hoạt động CNTT muốn triển khai một môi trường duy nhất để chạy nhiều khối lượng công việc cho HPC, AI và phân tích dữ liệu.
Kiến trúc bao gồm Kubernetes và Docker cho khối lượng công việc phân tích dữ liệu và AI.
Tổng quan kiến trúc
Kiến trúc sẵn sàng của HPC cho AI và Phân tích dữ liệu là một môi trường duy nhất được thiết kế riêng cho nhiều khối lượng công việc phân tích dữ liệu hiệu suất cao của HPC, AI và hiệu suất cao
Kiến trúc cung cấp một cơ sở hạ tầng duy nhất. Bạn có thể chỉ định nhóm cho các công việc HPC được quản lý bởi trình quản lý tài nguyên HPC như Slurm hoặc cho các khối lượng công việc phân tích dữ liệu và AI được chứa đựng bởi Kubernetes nguồn mở hệ thống điều phối container.
Kiến trúc sẵn sàng của HPC cho AI và Phân tích dữ liệu được hỗ trợ bởi xác thực, kiểm tra khả năng tương tác và đo điểm chuẩn. Thiết kế giải pháp sử dụng phương pháp tiếp cận xây dựng các blocks, giúp bạn linh hoạt trong việc lựa chọn các tính năng tính toán, hệ thống mạng, lưu trữ và phần mềm phù hợp nhất cho các trường hợp sử dụng và khối lượng công việc mà chúng sẽ chạy trong môi trường của bạn. Các cuộc trao đổi với khách hàng cho thấy rằng cách tiếp cận không có một kích thước phù hợp với tất cả mô hình hoạt động. Các hình sau cho thấy các thành phần và xây dựng các cụm kiến trúc giải pháp sẵn sàng HPC:
Hình 1. Kiến trúc sẵn sàng của HPC cho kiến trúc cao cấp của AI và Data Analytics
Hình 2. Kiến trúc sẵn sàng của HPC xây dựng các cụm AI và Phân tích dữ liệu
Server Building-blocks
Đối với sức mạnh tính toán, kiến trúc cung cấp nhiều máy chủ, bao gồm hệ thống PowerEdge R740XD, là một khối xây dựng tất cả trong một cho Spark, học máy (machine learning), đào tạo học sâu (deep learning) và suy luận . Kiến trúc cũng cung cấp các tùy chọn mật độ cao hơn như hệ thống PowerEdge DSS8440, rất phù hợp với khối lượng công việc mô phỏng HPC quy mô lớn, đào tạo máy học, đào tạo học sâu và suy luận. Mỗi máy chủ cung cấp các tính năng độc đáo giúp nó đạt hiệu quả cao dựa trên trường hợp sử dụng của khách hàng.
Kiến trúc được xác định theo các loại node: quản lý, tính toán, tăng tốc hiệu suất cao và tăng tốc với mật độ dày đặc, như được mô tả trong bảng sau:
Bảng 1. Vai trò của các node
Management | Compute | High-performance acceleration | Dense acceleration |
• Enterprise—Runs Bright Cluster Manager and Bright Cluster Manager for Data Science • Open source—Runs cluster management tools, Data Science Laboratory Portal, and Ansible playbooks for Kubernetes and Docker |
• Provides the balanced building block for AI, machine learning, and deep learning workloads
• Supports NVIDIA V100 PCIe for object detection and image recognition • Supports T4 and FPGA for machine learning and inferencing • Supports high memory configuration for in- memory processing for Spark |
• Provides the NVLink enabled, high- performance GPU building block for HPC simulation and deep learning training
• Supports NVIDIA V100 NVLink for simulation and image recognition |
• Provides the PCIe- enabled, dense all-in- one building block for large-scale HPC simulation workloads, deep learning training, machine learning training, and inferencing
• Supports NVIDIA T4 for machine learning and natural language processing • Supports NVIDIA V100 PCIe for simulation and image recognition |
Recommended server: PowerEdge R740XD | Recommended server: PowerEdge R740XD | Recommend server: PowerEdge C4140 | Recommended server: PowerEdge DSS8440 |
Các bảng sau cung cấp chi tiết cấu hình xây dựng các cụm máy chủ được hỗ trợ:
Bảng 2. Node quản lý PowerEdge R740XD
Component | Configuration details |
Processor | 2 x Intel Xeon Gold 6248 2.5 G, 20C/40T, 10.4 GT/s, 27.5M cache |
Memory | 24 x 16 GB RDIMM, 2933 MT/s, dual rank |
Hard drive | 24 x 3.84 TB SSD SATA read Intensive 6 Gbps |
RAID | PERC H740P RAID controller |
Network | Mellanox ConnectX-4 dual port 40/100 GbE |
Bảng 3. Các Node tính toán PowerEdge R740XD
Component | Configuration details |
Processor | 2 x Intel Xeon Gold 6248 2.5G, 20C/40T, 10.4 GT/s, 27.5M cache |
Memory | 24 x 16 GB RDIMM, 2933 MT/s, dual rank |
Hard drive | 2 x 960 GB SSD SATA read Intensive 6 Gbps |
RAID | PERC H730P RAID controller |
Network | Mellanox ConnectX-4 dual port 40/100 GbE |
Accelerator options | 2 x NVIDIA V100, or 6 x NVIDIA T4, or 6 x Intel FPGA |
Bảng 4. Node GPU hiệu suất cao PowerEdge C4140
Component | Configuration details |
Processor | 2 x Intel Xeon Gold 6248 2.5 G, 20C/40T, 10.4 GT/s, 27.5M cache |
Memory | 24 x 16 GB RDIMM, 2933 MT/s, dual rank |
Hard drive | BOSS Controller Card + with 2x M.2 Sticks 240G (operating system only) |
RAID | Mellanox ConnectX-4 dual port 40/100 GbE |
Network | 4 x NVIDIA NVLink V100 |
Accelerator options | 2 x Intel Xeon Gold 6248 2.5 G, 20C/40T, 10.4GT/s, 27.5M cache |
Bảng 5. Node GPU mật độ cao PowerEdge DSS8440
Component | Configuration details |
Processor | 2 x Intel Xeon Gold 6248 2.5 G, 20C/40T, 10.4 GT/s, 27.5M cache |
Memory | 12 x 32 GB RDIMM, 2933 MT/s, dual rank |
Hard drive | PERC H730P RAID Controller, 2 GB NV cache |
RAID | 1 x 960 GB SSD SATA SED read Intensive 512e |
Network | Mellanox ConnectX-4 Dual Port 40/100 GbE |
Accelerator options | 10 x NVIDIA V100 PCIe, 10 x NVIDIA T4 |
Network Building-blocks
Dựa trên các cuộc trò chuyện của chúng tôi với khách hàng, chúng tôi biết rằng khách hàng thích InfiniBand hoặc Ethernet. Vì lý do này, Kiến trúc sẵn sàng của HPC cho AI và Phân tích dữ liệu cung cấp
các tùy chọn này:
• Bộ chuyển mạch Dell EMC PowerSwitch S5232F-ON, là một cụm Ethernet hiệu suất cao:
– Thích hợp cho khối lượng công việc mô phỏng HPC, đào tạo học sâu, đào tạo máy học và suy luận
– Hỗ trợ băng thông I/O chuyển mạch lên đến 6,4 Tbps cho hiệu suất cao và độ trễ thấp
• Bộ chuyển mạch Mellanox SB7800, là một khối xây dựng InfiniBand hiệu suất cao:
– Thích hợp cho khối lượng công việc mô phỏng HPC quy mô lớn và đào tạo học sâu
– Hỗ trợ băng thông hạn chế xung đột lên đến 7,2 Tbps với độ trễ từ cổng đến cổng là 90ns cho hiệu suất và độ trễ thấp
Hình sau cho thấy kiến trúc chuyển mạch Ethernet:
Hình 1. Kiến trúc sẵn sàng của HPC cho AI và Phân tích dữ liệu với bộ chuyển mạch Ethernet
Hình sau cho thấy kiến trúc chuyển mạch InfiniBand:
Hình 2. Kiến trúc sẵn sàng của HPC cho AI và Phân tích dữ liệu với chuyển mạch InfiniBand
Hiệu suất của cả hai loại chuyển mạch trên là phổ biến trong hầu hết các trường hợp sử dụng. Khách hàng phải chọn một bộ chuyển mạch mạng cho phép họ chạy nhiều khối lượng công việc ở băng thông cao và độ trễ thấp để có hiệu suất tốt nhất. Switch mạng phải nhanh để kết nối với tài nguyên máy tính và lưu trữ để có hiệu suất tốt nhất.
Storage & File System Building-blocks
Khách hàng muốn có nhiều lựa chọn lưu trữ và hệ thống file để giải quyết tốt nhất nhu cầu khối lượng công việc của họ. Kiến trúc sẵn sàng của HPC cho AI và Phân tích dữ liệu cung cấp nhiều khối lưu trữ để đáp ứng nhu cầu hiệu suất của khách hàng dựa trên môi trường của họ.
Các đặc điểm kiến trúc:
• Dell EMC Isilon F800 — Hệ thống all flash cung cấp khối lưu trữ Hệ thống Tệp Mạng (NFS) hiệu suất cao, rất phù hợp cho khối lượng công việc HPC mô phỏng quy mô lớn, đào tạo học sâu, đào tạo máy học và suy luận. Bộ nhớ all flash Isilon F800 được cung cấp bởi hệ điều hành Dell EMC OneFS. Isilon F800 cung cấp NFS mở rộng quy mô mạnh mẽ nhưng đơn giản kiến trúc lưu trữ để tăng tốc độ truy cập vào lượng lớn dữ liệu phi cấu trúc trong khi giảm đáng kể chi phí và độ phức tạp.
• Dell EMC PowerVault ME4084 — Một khối xây dựng lưu trữ DAS rất phù hợp cho khối lượng công việc mô phỏng HPC, máy học và đào tạo học sâu. Nó mang lại sự đơn giản toàn diện, hiệu suất cao và dung lượng lưu trữ cao.
Được thiết kế cho tính linh hoạt, ME4 Series hỗ trợ nhiều loại ổ đĩa khác nhau, nhiều giao thức và bao gồm tất cả các tính năng phần mềm cần thiết.
Kiến trúc này cũng hỗ trợ nhiều hệ thống file cluster song song, được thiết kế để quản lý khối lượng công việc tập trung vào I/O trong các môi trường quan trọng về hiệu suất. Một tùy chọn là BeeGFS, giúp truyền tải dữ liệu người dùng trên nhiều máy chủ một cách minh bạch.
Hiệu suất và dung lượng hệ thống tệp có thể được mở rộng bằng cách tăng số lượng máy chủ và đĩa trong hệ thống.
Vì I/O hiệu suất cao là mục tiêu chính. Cốt lõi của giải pháp là SSD NVMe tốc độ cao cung cấp băng thông cao và độ trễ thấp bằng cách loại bỏ trình lập lịch và xếp hàng tắc nghẽn khỏi lớp khối. Hệ thống tệp BeeGFS cũng hỗ trợ thông lượng I/O tổng hợp cao.
Giải pháp lưu trữ NFS Dell EMC (NSS-NFS Storage Solution) cho HPC cung cấp dịch vụ lưu trữ NFS có khả năng mở rộng, độ khả dụng cao có thể được tích hợp trực tiếp vào cấu trúc hệ thống. Cốt lõi của giải pháp là một cụm HA, cung cấp dịch vụ lưu trữ có độ tin cậy cao và khả dụng cho các cụm máy tính HPC bằng cách sử dụng kết nối mạng hiệu suất cao như InfiniBand hoặc 10/25 Gb Ethernet (10/25 GbE).
Hướng dẫn triển khai
• Enterprise — Chạy trình Bright Cluster Manager và trình Bright Cluster Manager for Data Science, và Data Science Provisioning Portal
• Open source — Chạy các công cụ quản lý cluster, phòng thí nghiệm Khoa học Dữ liệu và Ansible playbooks cho Kubernetes và Docker
Data Science Provisioning Portal có sẵn với phần mềm Bright. Trong môi trường mã nguồn mở, Ansible playbooks có các tập lệnh triển khai để giúp triển khai Data Science Laboratory trên node quản lý.
Bright Cluster Manager and Bright Cluster Manager for Data Science
Bright Cluster Manager and Bright Cluster Manager for Data Science chứa các công cụ và ứng dụng để tạo điều kiện thuận lợi cho việc cài đặt, quản trị và giám sát một cụm. Ngoài ra, Bright Cluster Manager cung cấp cho người dùng một môi trường tối ưu để phát triển và chạy các ứng dụng đòi hỏi nhiều tài nguyên tính toán.
Bright Cluster Manager for Data Science cho phép bạn quản lý các cụm khoa học dữ liệu như một thực thể duy nhất, cung cấp phần cứng, hệ điều hành, HPC, phân tích dữ liệu và phần mềm học sâu từ một giao diện duy nhất. Khả năng này giúp dễ dàng hơn trong việc xây dựng cơ sở hạ tầng khoa học dữ liệu theo cụm, đáng tin cậy. Khi hệ thống của bạn đang hoạt động, Daemon quản lý cụm Bright sẽ giám sát mọi khía cạnh của mọi node. Daemon báo cáo bất kỳ vấn đề nào mà nó phát hiện trong phần mềm hoặc phần cứng để bạn có thể hành động và giữ cho cơ sở hạ tầng của bạn lành mạnh.
Để chuẩn bị hệ thống triển khai phần mềm bằng phần mềm Bright, hãy đảm bảo rằng mỗi máy chủ đều được lắp đặt, cấp nguồn và nối mạng để máy chủ có thể tải xuống các gói phần mềm từ Internet hoặc từ nguồn Red Hat Enterprise Linux
Ngoài ra, người dùng Bright View GUI có thể quản lý phần cứng, Slurm và Kubernetes, tất cả từ một bảng điều khiển, đơn giản hóa việc quản lý và hoạt động, như thể hiện trong hình sau:
Hình 3. Bright View GUI để lập lịch công việc Slurm và quản lý cụm
Playbooks
Việc triển khai dựa trên Ansible của Dell Technologies cài đặt và triển khai Kubernetes Web UI (Bảng điều khiển) để quản lý trên giao diện đồ họa cho cụm của bạn, như thể hiện trong hình sau:
Hình 4. Quản lý Kubernetes bằng Bảng điều khiển
Trang tổng quan cho phép bạn quản lý và giám sát các node, nhóm, dịch vụ, khối lượng liên tục và hơn thế nữa từ một giao diện duy nhất. Bạn cũng có thể chạy các tập lệnh cho phép chuyển đổi các node HPC thành các node Kubernetes và quay lại để lập lịch khối lượng công việc linh hoạt trên một nhóm tài nguyên. Để kích hoạt lập lịch động, hãy chạy tập lệnh chuyển mạch từ CLI. Ansible triển khai cụm tương tự như triển khai Bright. Cụm sẽ có cả Slurm và Kubernetes. Ansible Playbooks cung cấp một cách thuận tiện để cài đặt phần mềm cho Kiến trúc sẵn sàng HPC cho AI và Phân tích dữ liệu bằng cách sử dụng máy chủ PowerEdge được cài đặt sẵn CentOS tại nhà máy
Playbooks có sẵn trên GitHub (https://github.com/dellhpc/omnia) và có thể được sử dụng để chuẩn bị xây dựng các khối máy chủ sau:
• R740xd
• C4140
• DSS8440
Các bảng sau cung cấp thông tin chi tiết về môi trường Ansible playbooks :
Bảng 6. Các khả năng của môi trường Ansible playbooks
Capability | Technology |
Container runtime with accelerator support | Docker/containerd |
Container orchestration | Kubernetes |
System monitoring | Prometheus |
CNI-compliant software-defined network (SDN) | Flannel and Calico |
Service discovery | CoreDNS |
Ingress and proxy | Nginx |
Các thành phần của Ansible playbooks
Component | Version |
Operating system | CentOS 7.6 |
Kubernetes | 1.16 |
Docker | 1.13 |
Helm | 3.0.1 |
Để chuẩn bị hệ thống cho việc triển khai phần mềm bằng cách sử dụng Ansible, hãy đảm bảo rằng mỗi máy chủ được lắp ráp, cấp nguồn và nối mạng để máy chủ có thể tải xuống các gói phần mềm từ Internet hoặc từ một máy nhân bản CentOS đầy đủ.
Kiến trúc sẵn sàng của HPC cho AI và Phân tích dữ liệu giả định rằng bạn có hai mạng:
• Mạng quản lý sử dụng Ethernet tích hợp để quản lý dựa trên iDRAC
• Mạng kết nối băng thông cao được xây dựng trên 100 GbE hoặc InfiniBand
Quản lý mạng và kết nối tốc độ cao trên hai không gian IP riêng, tách riêng 2 dãy ip là một phương pháp hay nhất. Ví dụ: mạng quản lý có thể sử dụng 192.168.x.x, trong khi kết nối tốc độ cao sử dụng 10.1.x.x. Ngoài ra, chỉ định tên máy chủ cho hệ thống. Bạn có thể gán cả tên và địa chỉ IP theo cách thủ công hoặc bằng cách sử dụng giao thức Dynamic cấu hình máy chủ (DHCP).
Ansible playbooks giả định rằng, tối thiểu, mỗi node đều có quyền truy cập SSH trên kết nối tốc độ cao. Ansible sử dụng địa chỉ IP của kết nối tốc độ cao để thiết lập SDN cho cài đặt Kubernetes. Ansible sử dụng các vai trò để tùy chỉnh cài đặt trên các máy chủ khác nhau. Mỗi máy chủ được giao một vai trò cụ thể bằng cách sử dụng Ansible inventory file
Vai trò chính phải là một node duy nhất được sử dụng cho việc lập lịch và điều phối Slurm và Kubernetes, cũng như để quản lý và giám sát hệ thống. Nó không yêu cầu hiệu suất cao và không được sử dụng cho công việc tính toán.
Liệt kê các node tính toán chỉ dùng CPU, liệt kê các node có thể dùng GPU tăng tốc để bổ sung cho các node cơ bản tất cả nằm trong Inventory file
Đây là ví dụ về inventory file:
[master] master [compute] compute[000:005] [gpus] compute001 compute002 ### DO NOT EDIT BELOW THIS LINE ### [workers:children] compute gpus [cluster:children] master workers Bạn có thể cài đặt Ansible trên node chính bằng yum package manager (as root): yum install ansible
Để tải Ansible playbooks, đi tới trang GitHub:
https://github.com/dellhpc/omnia
Khi mạng được thiết lập, Ansible được cài đặt trên nút chính và tệp inventory được tạo. Chạy playbook build-cluster.yml để triển khai cụm:
ansible-playbook -i host_inventory_file build-cluster.yml
Playbook cài đặt tất cả các thành phần cần thiết vào các node chính và node tính toán, và nó đảm bảo rằng các node được tham gia vào cụm Kubernetes. Quá trình này mất khoảng 30 phút, tùy thuộc vào tốc độ kết nối Internet của bạn. Khi cụm được thiết lập, bạn có thể cài đặt các ứng dụng bổ sung trên Kubernetes, bằng cách sử dụng Helm và trên phân vùng Slurm, bằng cách sử dụng yum.
Các ví dụ sau xác nhận cho thấy rằng các dịch vụ đang chạy trên cụm khi bạn sử dụng kiến trúc này:
Hình 5. Container runtime với sự hỗ trợ của GPU
Hình 6. SDN với Flannel / Calico
Hình 7. Flannel SDN chạy trên hệ thống được triển khai Ansible
Hình 8. Biểu đồ Helm
Data Science Laboratory
Phòng thí nghiệm Khoa học Dữ liệu, được phát triển bởi Dell Technologies, đơn giản hóa công việc của bạn bằng cách cho phép thực hiện mô hình, đào tạo và các bài kiểm tra suy luận được chạy trong JupyterLab được tích hợp sẵn hoặc trực tiếp từ thiết bị đầu cuối Linux. JupyterLab chứa trong máy tính cho phép các nhà khoa học dữ liệu sử dụng sổ ghi chép để phát triển tương tác bằng cả Python và R, như thể hiện trong hình sau:
Hình 9. Sổ ghi chép tương tác JupyterLab
Data Science Laboratory tích hợp TensorBoard để theo dõi các công việc đào tạo học sâu, như thể hiện trong hình sau:
Hình 10. Data Science Laboratory TensorBoard
TensorBoard cho phép trực quan hóa và các công cụ cần thiết cho thử nghiệm học sâu. Bạn có thể theo dõi và trực quan hóa các số liệu cho từng công việc, xem biểu đồ về trọng số, độ lệch hoặc các yếu tố khác khi chúng thay đổi theo thời gian.
Data Science Laboratory cung cấp trình chỉnh sửa văn bản và đánh dấu để giúp bạn xây dựng tài liệu về mỗi dự án. Ngoài ra, nó cung cấp trình quản lý tích hợp GIT để kiểm soát nguồn, như thể hiện trong hình sau:
Hình 11. Trình quản lý tích hợp GIT để kiểm soát nguồn
Tích hợp kiểm soát nguồn với kho lưu trữ kiểm soát nguồn GIT cho phép các nhà phát triển lưu và quản lý nhiều phiên bản của một mô hình từ một phiên bản phi sản xuất. Các nhà khoa học dữ liệu có thể theo dõi các mô hình của họ trong suốt chu kỳ phát triển mô hình và duy trì phiên bản điều khiển.
Tóm lược
The Dell EMC HPC Ready Architecture for AI and Data Analytics là một giải pháp cơ sở hạ tầng hội tụ. Với giải pháp này, bạn có thể thiết kế một kiến trúc thống nhất với các node đa năng, cân bằng để hỗ trợ tất cả khối lượng công việc phân tích dữ liệu, AI và HPC của bạn.
Giải pháp sử dụng phương pháp tiếp cận xây dựng khối — hỗ trợ nhiều máy chủ, mạng, lưu trữ và các tùy chọn môi trường phần mềm — để bạn có thể thiết kế kiến trúc đáp ứng tốt nhất nhu cầu của mình. Các tùy chọn triển khai bao gồm một tùy chọn doanh nghiệp sử dụng Phần mềm Bright Computing và một tùy chọn mã nguồn mở chạy các công cụ quản lý cụm, Data Science Laboratory của Dell Technologies và Ansible Playbooks cho Kubernetes và Docker.