Hiện nay, việc áp dụng cơ sở hạ tầng điện toán tăng tốc GPU đã trở nên cấp thiết để hỗ trợ triển khai AI, Deep Learning (DL) và các khối lượng công việc tính toán chuyên sâu khác. Các GPU cho phép làm việc với các tập dữ liệu lớn và truyền phát theo thời gian thực, điều không thể thực hiện được trên các nền tảng tính toán khác. Bên cạnh đó, điện toán tăng tốc cũng cần phải phù hợp với lưu trữ và mạng có khả năng quản lý dữ liệu lớn, đa dạng và theo thời gian thực.
Để tối ưu hóa, đóng gói giải pháp nhằm hỗ trợ các doanh nghiệp, khách hàng của mình thuận lợi hơn trong việc triển khai hạ tầng AI, NVIDIA đã kết hợp với IBM để xây dựng kiến trúc tích hợp hệ thống NVIDIA DGX A100 với IBM Elastic Storage System. Từ đó, cung cấp giải pháp theo quy chuẩn để giúp các quản trị viên CNTT triển khai các giải pháp với bộ lưu trữ dùng chung, có thể mở rộng được thiết kế cho DL, suy luận AI, khám phá dữ liệu cũng như các công việc đòi hỏi nhiều tính toán và I/O khác.
Đối với quản trị viên CNTT, kiến trúc tham chiếu này cung cấp các thông số kỹ thuật cho mạng, lưu trữ và cơ sở hạ tầng đã được chứng minh giúp cải thiện khả năng mở rộng, hiệu suất và khả năng quản lý hiệu quả về chi phí. Đối với nhà khoa học dữ liệu, năng suất của nhóm, tái sử dụng dữ liệu và vị trí dữ liệu logic có thể được nâng cao thông qua bộ nhớ dùng chung có thể tích hợp và nâng cao quy trình làm việc DL.
Được thiết kế như một đơn vị linh hoạt có thể thay đổi quy mô để đáp ứng nhu cầu nghiên cứu và kinh doanh AI ngày càng tăng cao, IBM Storage với các hệ thống NVIDIA DGX A100 hỗ trợ các tổ chức đang tìm cách đáp ứng nhu cầu về nhiều khối lượng công việc, từ việc cung cấp quyền truy cập “dưới dạng dịch vụ” cho các công việc tương tác nhỏ , để hỗ trợ các công việc trên toàn cụm giúp tận dụng tối đa tài nguyên đa nút và đa GPU. IBM Storage cung cấp một khung lưu trữ có khả năng mở rộng các thuộc tính doanh nghiệp cần có, bao gồm bảo vệ dữ liệu, phân tầng dữ liệu và tích hợp đám mây,…
The Artificial Intelligence Ladder
Dữ liệu là nhiên liệu quan trọng cho trí tuệ nhân tạo (AI) và Trí tuệ nhân tạo tốt nhất là được xây dựng trên nền tảng dữ liệu, được thu thập và sắp xếp cẩn thận sau đó được phân tích và truyền vào hệ thống của doanh nghiệp. Các tổ chức gặp khó khăn trong việc thu thập thông tin chi tiết từ dữ liệu của họ vì nhiều lý do, với nhiều tập dữ liệu khiến bạn khó có được cái nhìn tổng thể về tất cả thông tin của dữ liệu, sẽ làm hạn chế giá trị của AI.
Mọi dự án AI thành công đều trải qua một quy trình gồm nhiều bước (Hình 1), bắt đầu bằng việc có dữ liệu phù hợp và tiến tới sử dụng AI một cách rộng rãi và linh hoạt.
Collect
Dữ liệu là nhiên liệu cung cấp năng lượng cho AI, nhưng nó có thể bị mắc kẹt hoặc lưu trữ theo cách bị phân tán, không tập trung gây khó khăn hoặc tốn kém cho việc duy trì hoặc mở rộng. Với IBM Elastic Storage System sẽ làm cho dữ liệu trở nên đơn giản và dễ truy cập đối với cơ sở hạ tầng đám mây.
Organize
AI chỉ có thể tốt lên theo cách mà dữ liệu mà nó thu thập. Các doanh nghiệp phải hiểu rõ đầy đủ dữ liệu họ có để có thể tận dụng dữ liệu đó cho AI và các nhu cầu khác của tổ chức, gồm tuân thủ, tối ưu hóa dữ liệu, lập danh mục dữ liệu và quản trị dữ liệu.
Analyze
Các tổ chức phải lập kế hoạch cho các cơ hội khác ngoài sự phát triển của AI; họ cần xây dựng cơ sở hạ tầng AI với sự tự tin về khả năng mở rộng, hiệu suất cao và khả năng mở rộng đối với hồ dữ liệu và danh mục lưu trữ.
Infuse
Những thách thức kinh doanh có thể trở thành cơ hội để khám phá, hiểu, dự đoán và mang lại cơ sở hạ tầng AI cho toàn bộ tổ chức của bạn. IBM Storage đang trao quyền cho khách hàng sử dụng dữ liệu và lưu trữ AI để tận dụng cơ sở hạ tầng đó theo nhiều cách hơn nhằm mang lại giá trị cho tổ chức.
IBM Storage for Data and AI
Bộ lưu trữ Dữ liệu và Trí tuệ nhân tạo của IBM bao gồm trường hợp sử dụng hoàn chỉnh cho các ứng dụng Trí tuệ nhân tạo và Dữ liệu lớn trên đám mây lai. Cách tiếp cận tích hợp cung cấp một khung quản lý và chế độ theo dõi thống nhất về dữ liệu nghiên cứu và doanh nghiệp trên nhiều nguồn dữ liệu và ứng dụng. Với khả năng hỗ trợ toàn bộ bậc thang AI, IBM sẽ giúp giảm chi phí và cho phép các nhà khoa học dữ liệu nhanh chóng xác định và sử dụng dữ liệu liên quan. Rất linh hoạt và có thể mở rộng rất tốt, IBM Elastic Storage System for Data và AI có thể được triển khai và tích hợp với nhiều nền tảng và đám mây.
Có ba dịch vụ độc lập nhưng được tích hợp trong danh mục do phần mềm xác định.
IBM Spectrum Scale cung cấp khả năng lưu trữ tệp có thể mở rộng, truy cập đa giao thức và ngang hàng dữ liệu với IBM COS.
IBM Cloud Object Storage (IBM COS) là một kho dữ liệu hiệu quả và an toàn cho các ứng dụng đối tượng hoặc sao lưu nhiều dịch vụ.
IBM Spectrum Discover cung cấp danh mục dữ liệu và gắn thẻ dữ liệu tùy chỉnh trên các nền tảng.
Bộ phận CNTT và người dùng cuối có thể sử dụng giao diện có lập trình để khám phá dữ liệu, hiệu quả lưu trữ và tối ưu hóa quy trình làm việc. IBM Storage for Data và AI cung cấp nhiều tùy chọn triển khai với các giải pháp của IBM, bộ lưu trữ do phần mềm xác định hoặc trên các nhà cung cấp đám mây công cộng như IBM Cloud, AWS, Azure và Google.
IBM Spectrum Scale, IBM COS và IBM Spectrum Discover cung cấp cho nhà khoa học dữ liệu và quản trị viên CNTT hiệu suất, phân tầng dữ liệu được tối ưu hóa và theo dõi dữ liệu có thể giảm chi phí và cải thiện năng suất. Cùng với nhau, chúng đại diện cho phần Lưu trữ cho AI và Dữ liệu lớn trong danh mục lưu trữ của IBM, bao gồm lưu trữ khối chính với mảng allflash, bảo vệ dữ liệu hiện đại và lưu trữ do phần mềm xác định. (Hình 2).
IBM Spectrum Scale
IBM Spectrum Scale là công ty hàng đầu trong ngành về các hệ thống tệp hiệu suất cao. Hệ thống tệp song song cung cấp thông lượng có thể mở rộng và truy cập dữ liệu có độ trễ thấp, cũng như hiệu suất siêu dữ liệu vượt trội. Không giống như các hệ thống NFS có thể dễ dàng thắt cổ chai, kiến trúc phân tán của hệ thống tệp song song cung cấp hiệu suất đáng tin cậy cho việc đọc hoặc ghi ngẫu nhiên và tuần tự nhiều người dùng. Thang đo của IBM đã được chứng minh trên các cụm AI lớn nhất trên thế giới, bao gồm Hội nghị thượng đỉnh về siêu máy tính của Phòng thí nghiệm quốc gia Hoa Kỳ và Sierra, cũng như siêu máy tính Circe do NVIDIA chế tạo.
Với IBM Spectrum Scale, việc triển khai DGX POD có thể chia sẻ dữ liệu với cơ sở hạ tầng hiện có, chẳng hạn như cụm HPC, Hadoop/Spark hoặc nguồn dữ liệu có cấu trúc. IBM Spectrum Scale tạo một không gian lưu trữ duy nhất (hoặc mặt phẳng dữ liệu) trên các hệ thống. Đối với người dùng, nó là một kho lưu trữ duy nhất có thể truy cập hệ thống tệp NFS, SMB, Object hoặc hệ thống tệp POSIX gốc hiệu suất cao.
Dữ liệu duy nhất này cho phép quản trị viên dữ liệu, nhà phân tích hoặc nhà khoa học dữ liệu truy cập tất cả dữ liệu tại chỗ. Toàn bộ đường dẫn dữ liệu, từ nhập liệu đến suy luận có thể được hoàn thành mà không cần phải tạo thêm bản sao hoặc di chuyển dữ liệu giữa các hệ thống.
IBM Spectrum Scale cho phép dữ liệu được phân tầng tự động, tiết kiệm chi phí hơn, bao gồm ổ đĩa cứng (HDD), băng từ và đám mây. Phần mềm cung cấp khả năng phân tầng dữ liệu tự động, theo chính sách hoặc theo khối lượng công việc để tối ưu hóa hiệu suất và chi phí. Khi được triển khai với Bộ lưu trữ đối tượng trên đám mây của IBM hoặc AWS S3.
IBM Spectrum Scale cung cấp Quyền truy cập gốc vùng chứa và Người vận hành để hỗ trợ các thực tiễn DevOps và Data Ops dựa trên Kubernetes. Ngoài ra, IBM Spectrum Scale cung cấp các tính năng dành cho doanh nghiệp như hỗ trợ chủ động tại nhà gọi, mã hóa và ghi nhật ký tệp kiểm toán hoạt động với các nền tảng Qradar và Splunk SEIM.
IBM Elastic Storage System (ESS) 3000
IBM Elastic Storage System 3000 kết hợp hiệu suất của các công nghệ lưu trữ NVMe với độ tin cậy và các tính năng Data Services nổi bật của IBM Spectrum Scale, cùng với một số tùy chọn như Ethernet 100 Gb/s và InfiniBand (IB) tốc độ cao — tất cả trong một hệ thống lưu trữ 2U mạnh mẽ duy nhất.
IBM Spectrum Scale trên NVMe được thiết kế để dẫn đầu thị trường về hiệu suất toàn flash và khả năng mở rộng với băng thông khoảng 40 GB/giây trên mỗi thiết bị NVMe toàn flash và độ trễ 100 micro giây. Cung cấp dung lượng lưu trữ đa đám mây dựa trên dữ liệu, thiết bị toàn flash NVMe được tích hợp sâu với các khả năng được xác định bằng phần mềm của Bộ lưu trữ Dữ liệu và AI của IBM để kết nối liền mạch với khối lượng công việc phân tích, cụm có thể mở rộng hoặc AI.
Có sẵn với nhiều tùy chọn ổ đĩa và mã hóa xóa nâng cao, IBM ESS 3000 cung cấp các tùy chọn để tối ưu hóa chi phí cho các kích thước cài đặt khác nhau. Như với tất cả các giải pháp Quy mô phổ của IBM, công suất và hiệu suất có thể được điều chỉnh theo quy mô. Kết hợp các hệ thống ESS 3000 cung cấp khả năng mở rộng hiệu suất gần như tuyến tính. Các giải pháp IBM ESS 3000 cũng có thể được sử dụng làm tầng hiệu năng NVMe toàn flash trên bộ lưu trữ chậm hơn, bao gồm bộ nhớ băng từ hoặc đối tượng. Bảng sau cho thấy một số thông số kỹ thuật chính của hệ thống IBM ESS 3000.
NVIDIA DGX A100 System
Hệ thống DGX A100 (Hình 4) là hệ thống phổ quát cho mọi khối lượng công việc AI, cung cấp mật độ điện toán, hiệu suất và tính linh hoạt chưa từng có trong hệ thống AI 5 peta FLOPS đầu tiên trên thế giới. Hệ thống DGX A100 có bộ tăng tốc tiên tiến nhất thế giới, GPU NVIDIA A100 Tensor Core, cho phép các doanh nghiệp hợp nhất hoạt động đào tạo, suy luận và phân tích thành một cơ sở hạ tầng AI thống nhất, dễ triển khai.
NVIDIA Mellanox Quantum QM8700 InfiniBand Switch
Cấu trúc hội tụ InfiniBand được sử dụng cho cả điện toán và lưu trữ sử dụng Công tắc thông minh NVIDIA®Mellanox Quantum™ HDR 200 Gb/giây InfiniBand (Hình 5).
Mỗi Switch bao gồm 40 cổng QSFP56, được sử dụng cho cả giao tiếp với từng hệ thống DGX A100, cũng như giữa các công tắc trong cấu trúc điện toán. Tất cả các kết nối đều là HDR, tối đa hóa băng thông giữa các phần tử mạng. Không có phân vùng InfiniBand hoặc phân đoạn nào khác được sử dụng, với bộ chuyển mạch QM8700 cung cấp trình quản lý mạng con cho cấu trúc điện toán. Có thể thực hiện kết nối với các cổng quản lý ngoài băng tần trên công tắc tới cấu trúc quản lý ngoài băng tần nếu cần, nhưng không quan trọng đối với hoạt động của DGX POD
NVIDIA NGC
NVIDIA NGC™ (Hình 6) cung cấp nhiều tùy chọn đáp ứng nhu cầu của các nhà khoa học dữ liệu, nhà phát triển và nhà nghiên cứu có trình độ chuyên môn AI khác nhau. Những người dùng này có thể nhanh chóng triển khai các khung AI với các bộ chứa, bắt đầu thuận lợi với các mô hình được đào tạo trước hoặc các tập lệnh đào tạo mô hình, đồng thời sử dụng các quy trình công việc cụ thể theo miền và biểu đồ Helm để triển khai AI nhanh nhất, giúp họ có thời gian tìm ra giải pháp nhanh hơn.
NGC lưu trữ các vùng chứa cho phần mềm khoa học dữ liệu và AI hàng đầu giúp triển khai Mở rộng AI, khoa học dữ liệu và HPC, sổ đăng ký vùng chứa trên NGC có nhiều loại phần mềm tăng tốc GPU cho GPU NVIDIA. Bộ chứa NGC cung cấp phần mềm mạnh mẽ và dễ triển khai đã được chứng minh là mang lại kết quả nhanh nhất, cho phép người dùng xây dựng các giải pháp từ một khung đã thử nghiệm, với toàn quyền kiểm soát.
NGC cung cấp các hướng dẫn từng bước và tập lệnh để tạo các mô hình DL, với các số liệu về hiệu suất và độ chính xác mẫu để so sánh kết quả của bạn. Các tập lệnh này cung cấp hướng dẫn chuyên môn về cách xây dựng các mô hình DL để phân loại hình ảnh, dịch ngôn ngữ, chuyển văn bản thành giọng nói, v.v. Các nhà khoa học dữ liệu có thể nhanh chóng xây dựng các mô hình tối ưu hóa hiệu suất bằng cách dễ dàng điều chỉnh các siêu tham số. Ngoài ra, NGC cung cấp các mô hình được đào tạo trước cho nhiều tác vụ AI thông thường được tối ưu hóa cho GPU NVIDIA Tensor Core và có thể dễ dàng đào tạo lại bằng cách chỉ cập nhật một vài lớp, giúp tiết kiệm thời gian quý báu.
Solution Validation
Phần này mô tả kiến trúc phòng thí nghiệm, cấu hình và xác thực hệ thống NVIDIA DGX A100 với Thang đo phổ của IBM trên IBM ESS3000 với các công tắc QM8700 (Hình 7).
Cơ sở hạ tầng hội tụ được tạo bằng cách sử dụng các bộ chuyển mạch QM8700 cho cả cấu trúc Điện toán và cấu trúc Lưu trữ để đơn giản hóa việc triển khai và quản trị mạng.
DGX POD có các mạng cấu trúc Điện toán và Lưu trữ:
Compute fabric. Kết nối tám 200 Gb NVIDIA Mellanox ConnectX®-6 HCA từ mỗi hệ thống DGX A100 thông qua các mặt phẳng mạng riêng biệt để liên lạc giữa các nút. Các bộ điều hợp này được định cấu hình ở chế độ InfiniBand.
Storage fabric. Kết nối hai HCAs NVIDIA Mellanox ConnectX-6 200 Gb/giây từ mỗi hệ thống DGX A100 cho mục đích giao tiếp lưu trữ.
LAB Testing
NVIDIA Collective Communications Library (NCCL) scalability test
Nhiều thử nghiệm khác nhau được thực hiện để xác thực khả năng mở rộng giao tiếp giữa GPU với GPU trên nhiều hệ thống DGX A100 trong POD. Lập lịch tác vụ nhiều nút yêu cầu giao tiếp RDMA hiệu suất cao và độ trễ thấp giữa các nút trong DGX POD. Kết quả kiểm tra cho thấy băng thông có thể mở rộng giữa các hệ thống NVIDIA DGX A100 cần thiết cho khối lượng công việc DL nhiều nút trong Hình 8.
MLPerf test
MLPerf là bộ tiêu chuẩn ngành về triển khai điểm chuẩn của mạng thần kinh và nó đo lường tốc độ một hệ thống có thể thực hiện đào tạo và suy luận các mô hình DL. Các cấu hình đã được thử nghiệm với một, hai, bốn và tám hệ thống DGX A100 và hai hệ thống IBM ESS 3000 để đo hoạt động của khối lượng công việc DL. Thử nghiệm này đã sử dụng triển khai MXNet của ResNet-50 cùng với bộ dữ liệu ImageNet.
Kết quả đào tạo được đo tại Epoch 0 và được so sánh với tổng thời gian chạy trung bình để đo băng thông đọc của hệ thống lưu trữ trong quá trình xác thực. Kỷ nguyên 0 là phần chuyên sâu nhất về I/O của lần chạy điểm chuẩn MLPerf và thời gian để hiểu rõ phụ thuộc vào hiệu suất của Hệ thống lưu trữ.
Các giải pháp lưu trữ của IBM thể hiện quy mô tuyến tính của DGX POD với các hệ thống DGX A100 bổ sung được thêm vào cơ sở hạ tầng. Kết quả về hiệu suất MLPerf trong Hình 12 thể hiện khả năng mở rộng Đa GPU của giải pháp với các hệ thống Lưu trữ của IBM mà không có tắc nghẽn dữ liệu. Nó mang lại khả năng mở rộng tuyến tính thời gian cho thông tin chi tiết khi có thêm nhiều hệ thống DGX A100 được thêm vào DGX POD và giảm thời gian cho thông tin chi tiết xuống dưới 7 phút với tám hệ thống DGX A100 chạy cùng với hai hệ thống IBM ESS 3000.
Solution Sizing Guidance
Kiến trúc tham chiếu này dự định cung cấp các nguyên tắc cấu hình khác nhau cho khách hàng và đối tác dự định triển khai cơ sở hạ tầng AI/DL với hệ thống NVIDIA DGX A100 và hệ thống Lưu trữ IBM. Chúng tôi tập trung vào ba cấu hình giá có kích thước cho các điểm bắt đầu khác nhau (Hình 13). Đây là những khối xây dựng mà nhóm dữ liệu và CNTT có thể phát triển từ hai lên tám nút. Mặc dù kiến trúc triển khai không nằm trong phạm vi của bài viết này, nhưng không gian tên đơn của Thang đo phổ của IBM cũng dễ dàng thích ứng với quy mô nhiều giá đỡ và các cụm lớn hơn.
2:1 configuration: Two DGX A100 systems with one IBM ESS 3000 systems
Hình 14 mô tả cấu hình hai hệ thống DGX A100 với một hệ thống IBM ESS 3000 sử dụng bộ chuyển mạch QM8700 IB. Cấu hình này mang lại hiệu suất đọc lên tới 40 GB/giây từ một hệ thống ESS 3000 duy nhất. Mỗi hệ thống DGX A100 mang lại hiệu suất đọc 20 GB/giây sử dụng kết nối HDR 200 Gb/giây được định cấu hình cho việc sử dụng bộ nhớ.
4:1 configuration: Four DGX A100 systems with one IBM ESS 3000 systems
Hình 15 mô tả cấu hình hệ thống 4 DGX A100 với một hệ thống IBM ESS 3000 sử dụng bộ chuyển mạch QM8700 IB. Cấu hình này mang lại hiệu suất đọc lên tới 48 GB/giây từ một hệ thống ESS 3000 duy nhất, tức là khoảng 12 GB/giây trên mỗi hệ thống DGX A100.
8:2 configuration: 8 DGX A100 systems with two IBM ESS 3000 systems
Hình 16 mô tả tám cấu hình hệ thống DGX A100 với hai hệ thống IBM ESS 3000 sử dụng bộ chuyển mạch QM8700 IB. Cấu hình này mang lại hiệu suất đọc lên tới 94 GB/giây từ một hệ thống tệp GPFS duy nhất được định cấu hình bằng hai hệ thống ESS của IBM. Cấu hình này mang lại hiệu suất đọc hơn 10 GB/giây cho mỗi hệ thống DGX A100.
Conclusion
Kiến trúc Lưu trữ của IBM trên cấu trúc NVIDIA IB cung cấp cơ sở hạ tầng hội tụ cho Điện toán và Lưu trữ về AI. IBM Storage cung cấp hiệu suất hàng đầu cho khối lượng công việc AI/DL với băng thông cao và độ trễ cực thấp để tận dụng tối đa sức mạnh của NVIDIA GPU khi chạy trên nhiều hệ thống siêu máy tính NVIDIA DGX A100 . IBM Storage for Data/AI và các hệ thống NVIDIA DGX POD được tích hợp với Ngăn xếp phần mềm NGC cung cấp khả năng hợp nhất khối lượng công việc, chuẩn bị và quản lý dữ liệu và tự động hóa toàn bộ quy trình về triển khai hậ tầng AI/DL. Giải pháp kết hợp giữa NVIDIA DGX A100 và IBM ESS 3000 Storage là điều mà các tổ chức đang cần để hợp lý hóa quá trình phát triển AI từ đầu đến cuối và dễ dàng tích hợp chúng vào hệ thống hiện có cơ sở hạ tầng hiện có của họ.
Giới thiệu về NVIDIA
NVIDIA với xuất phát điểm từ hãng sản xuất card tăng tốc đồ họa từ năm 1993, đến nay, hãng đã chuyển mình thành công ty chuyên cung cấp giải pháp điện toán Data Center hiệu năng cao, siêu máy tính cho AI và phân tích dữ liệu.
Nhất Tiến Chung (NTC) là nhà cung cấp các giải pháp hạ tầng CNTT, Điện toán Hiệu năng cao (HPC) cho AI với kinh nghiệm kinh doanh phần cứng từ năm 2005. Chúng tôi là nhà phân phối chính thức của NVIDIA cho các hệ thống điện toán hiệu năng cao dựa trên GPU bao gồm DGX A100, DGX Station A100 và hệ thống cụm siêu máy tính DGX SuperPOD với sức mạnh lưu trữ song song của DDN và mạng tốc độ cao từ Mellanox.