Tải xử lý AI có hai giai đoạn quan trọng:
• Đào tạo/huấn luyện mô hình (AI model training), trong đó các thuật toán được đào tạo từ các tập dữ liệu lớn để nhận dạng các mẫu hình (pattern),
• Suy luận (Inferencing), trong đó các mô hình đã được đào tạo vận dụng các mẫu hình này để đưa ra các dự đoán.
Yêu cầu lưu trữ cho các giai đoạn này chủ yếu khác nhau về quy mô khối lượng, nhu cầu về hiệu suất và các phương thức truy cập dữ liệu.
Hãy cùng xem xét kiểu hệ thống lưu trữ nào phù hợp cho việc đào tạo AI.
Kịch bản sử dụng
Một viện nghiên cứu tiến hành đào tạo mô hình AI để giải quyết các vấn đề phức tạp, cho phép đóng góp lợi ích của nó vào nhiều lĩnh vực khác nhau. Để phát triển các mô hình AI hiệu quả, các tải xử lý đào tạo này tận dụng các tập dữ liệu lớn và đa dạng và yêu cầu lưu trữ hiệu suất cao có khả năng cung cấp thông lượng đọc 140GB/s. Hệ thống lưu trữ hiệu suất cao này rất quan trọng để đẩy nhanh quá trình đào tạo AI bằng cách quản lý hiệu quả các mẫu đọc/ghi ngẫu nhiên, chuyên sâu thường thấy trong tải xử lý AI và đảm bảo rằng các tài nguyên tính toán, chẳng hạn như GPU, duy trì luồng dữ liệu liên tục mà không có độ trễ.
Ngoài ra, giải pháp lưu trữ phải tương thích với parallel File System hiệu suất cao Lustre mà viện sử dụng. Hơn nữa, cần có dung lượng 4PB để lưu trữ cold data để lưu trữ khối lượng lớn dữ liệu được sử dụng cho mục đích đào tạo.
Sản phẩm được đề xuất – GS 5000U
Dòng EonStor GS 5000U, giải pháp lưu trữ hợp nhất SSD U.2 NVMe 2U 24 khay hiệu suất cao có thể đạt thông lượng 50GB/s, với 1,3M IOPS và độ trễ 0,3 ms — lý tưởng cho đào tạo AI sử dụng nhiều dữ liệu.
Cấu hình
1. Model: GS 5000U x 3 + JB 3090 x 3
2. Kết nối: 100GbE x 4 (mỗi thiết bị)
3. Ổ cứng: 15,68TB U.2 NVMe SSD x 72 (cho GS 5000U) + 18TB HDD x 270 (cho JB 3090)
Ưu điểm của sản phẩm
1. Hiệu suất cực cao: GS 5000U hỗ trợ công nghệ 100GbE NVMe over Fabric (NVMe-oF) để cho phép kết nối hiệu quả và tăng thông lượng. Khi cấu hình với ba thiết bị, hệ thống đạt hiệu suất 140GB/s cần thiết cho kiểu ứng dụng này.
2. Dung lượng cao thông qua JBOD: GS 5000U hỗ trợ mở rộng dung lượng. Đối với trường hợp này, JB 3090, JBOD 4U 90 khay được chọn. Ba thiết bị cung cấp dung lượng thô lên đến 4.860TB — lý tưởng để lưu trữ các tập dữ liệu đào tạo AI mở rộng.
Bài viết liên quan
- Hyperscale computing: Làm cách nào để đạt được năng lực điện toán quy mô lớn tốt hơn
- Hậu trường: Tầm quan trọng của việc lưu trữ dữ liệu tại các sự kiện hiện đại
- Hệ thống lưu trữ DDN đạt được hiệu suất vượt trội với MLPerf Benchmarking, thúc đẩy kết quả kinh doanh đột phá từ AI
- Giải pháp lưu trữ của Infortrend cho camera an ninh
- Đài truyền hình Hậu Giang chọn Infortrend để hiện đại hóa việc quản lý cơ sở dữ liệu và tư liệu truyền thông