Sự bùng lên của lưu trữ S3/RDMA: Hiện đại hóa việc truy cập dữ liệu cho AI

S3 từ lâu đã được thiết lập là giao diện chuẩn thực tế cho lưu trữ đối tượng (Object Storage). Tính đơn giản, khả năng mở rộng và độ tin cậy của nó đã biến nó thành nền tảng cho quản lý và phân tích dữ liệu lớn.

Gần đây, S3 đang có những bước tiến đặc biệt trong lĩnh vực đào tạo và suy luận AI. Tuy nhiên, khi các tải xử lý AI ngày càng phức tạp và mở rộng, nhu cầu truy cập dữ liệu nhanh hơn, hiệu quả hơn ngày càng trở nên quan trọng.

Sử dụng S3 qua RDMA, một giao thức được thiết kế để đáp ứng những nhu cầu này bằng cách tận dụng sức mạnh của Remote Direct Memory Access (RDMA) kết hợp với tính phổ biến của giao diện lưu trữ đối tượng S3.

Sức mạnh của RDMA

Đào tạo AI bao gồm việc truy cập nhiều lần vào các tập dữ liệu khổng lồ này và việc ứng dụng S3 được thúc đẩy bởi khả năng đóng vai trò là giao tiếp chính cho dữ liệu này, đảm bảo tính nhất quán, độ bền và khả năng truy cập.

Trong khi đó, RDMA, về mặt lịch sử là công nghệ mạng chiếm ưu thế trong môi trường HPC, đã tìm thấy sức sống mới trong AI nhờ khả năng cung cấp mạng tốc độ cao với sự tham gia tối thiểu của CPU. RDMA cho phép dữ liệu di chuyển trực tiếp từ bộ nhớ của máy tính này sang bộ nhớ của máy tính khác mà không cần chạm vào CPU, giúp mang đến:

  • User-space networking: Các hoạt động network và truyền dữ liệu được xử lý riêng trong không gian của nơi đầu cuối, giúp giảm chi phí liên quan đến các lệnh gọi hệ thống.
  • Zero-copy: Dữ liệu được truyền mà không cần các hoạt động copy không cần thiết từ network buffer trung gian đến source buffer của người dùng, dẫn đến độ trễ thấp hơn và băng thông cao hơn, thường đạt tới hàng chục GB/giây cho mỗi node.
  • Sử dụng đến CPU rất ít: Bằng cách chuyển tải xử lý network liên quan đến việc đặt hàng và phân phối tin cậy, CPU sẽ rảnh rỗi để thực hiện các tác vụ tính toán cụ thể của ứng dụng, điều này rất quan trọng trong AI, nơi mà mọi sức mạnh xử lý nhỏ nhoi đều có giá trị.

S3/RDMA: Sự kết hợp cho tải xử lý AI

Việc kết hợp S3 với RDMA sẽ tạo ra S3/RDMA, một giao thức hứa hẹn sẽ cải thiện đáng kể cách các nhà xây dựng AI và người tiêu dùng tương tác với dữ liệu:

  • Tốc độ và tính hiệu quả: S3/RDMA có thể cung cấp tốc độ cần thiết cho tải xử lý AI, đặc biệt là trong các tình huống liên quan đến các checkpoint thường xuyên trong các công việc đào tạo kéo dài. Độ trễ thấp và băng thông cao là chìa khóa để duy trì tốc độ đào tạo AI hiện đại.
  • Truyền dữ liệu nâng cao: Khả năng truyền dữ liệu trực tiếp vào bộ nhớ của RDMA mà không cần sự can thiệp của CPU có nghĩa là dữ liệu S3 có thể được truy cập và sử dụng với độ trễ tối thiểu. Điều này đặc biệt có lợi cho việc truyền dữ liệu lớn vào các mô hình AI, cho phép xử lý theo thời gian thực hoặc gần thời gian thực trong các ứng dụng phục vụ đào tạo hoặc suy luận.
  • Tính di động và Cloud-Native: S3 vốn có tính di động và cloud-native, cho phép di chuyển dữ liệu liền mạch giữa các trung tâm dữ liệu và đám mây. Tính di động này trở nên mạnh mẽ hơn nữa với S3 qua RDMA, giúp tăng tốc truy cập dữ liệu khi dữ liệu đến đích trong trung tâm dữ liệu lõi, giúp dữ liệu nhanh hơn và có giá trị hơn đối với tải xử lý AI. Những cải tiến như dịch vụ AI S3 của CoreWeave với VAST làm nổi bật tiềm năng này, chứng minh rằng S3 có thể mang lại cả tính linh hoạt của cloud-native và tốc độ hiệu suất cao.

Sự công nhận rộng rãi về tiềm năng của S3/RDMA

VAST đã nhận ra tiềm năng chuyển đổi của S3/RDMA và đang tích cực tích hợp hỗ trợ cho giao thức này vào các dịch vụ của chúng tôi. Bằng cách thêm S3/RDMA, chúng tôi sẽ cung cấp cho khách hàng một giải pháp mạnh mẽ có hệ thống đa giao thức gốc với hiệu suất và quy mô cực cao với mức sử dụng CPU tổng thể thấp hơn.

Vast Data Platform hỗ trợ cả truy cập file (NFS, SMB) và đối tượng (S3) qua Ethernet hoặc Infiniband, cho phép di chuyển dữ liệu liền mạch cho tải xử lý đào tạo AI đòi hỏi khắt khe. Với khả năng tương thích GPU Direct Storage (GDS) cho cả NFS và S3, người dùng sẽ có thể quản lý hiệu quả các tập dữ liệu đa dạng trên nhiều nguồn dữ liệu và thậm chí là các trung tâm dữ liệu khác nhau. Khi NVIDIA phát triển RDMA cho AI, việc tích hợp GDS với S3/RDMA có thể đảm bảo truyền dữ liệu trực tiếp đến bộ nhớ GPU, bỏ qua tình trạng tắc nghẽn CPU. Điều này đặc biệt có lợi cho tải xử lý GenAI, nơi thông lượng dữ liệu cao rất quan trọng đối với hiệu suất.

Thách thức các mô hình HPC truyền thống

Trong khi HPC truyền thống ủng hộ hệ thống file song song là điều cần thiết cho AI, thị trường đang chứng kiến ​​sự thay đổi. Việc triển khai các điểm kiểm tra S3 và trình tải dữ liệu trong môi trường đào tạo cho thấy sự ưu tiên đối với mô hình của S3. Các công cụ này không chỉ quản lý dữ liệu không đồng bộ mà còn đáp ứng bản chất năng động, tập trung vào đám mây của quá trình phát triển AI hiện đại.

S3/RDMA: Tương lai của AI có thể mở rộng

S3/RDMA không chỉ là sự nâng cấp, cải tiến đơn thuần, mà nó còn là sự thay đổi lớn về cách chúng ta suy nghĩ về việc truy cập dữ liệu trong bối cảnh của AI và HPC.

Bằng cách kết hợp tính phổ biến và tính linh hoạt của S3 với các lợi ích về hiệu suất của RDMA, chúng ta đang hướng đến một tương lai mà AI có thể mở rộng nhanh hơn, hiệu quả hơn và có khả năng tương tác cao hơn trên nhiều môi trường khác nhau. Khi giao thức này trưởng thành, nó hứa hẹn sẽ hỗ trợ thế hệ hạ tầng AI tiếp theo, biến những gì từng được coi là điện toán hiệu suất cao trở nên dễ tiếp cận và thiết thực cho mọi người, từ các công ty khởi nghiệp đến các doanh nghiệp quy mô lớn.

____
Bài viết liên quan
Góp ý / Liên hệ tác giả