Các công ty có các dự án AI cần một cách thức hiệu quả để lưu trữ, truy xuất và chia sẻ một lượng lớn dữ liệu phức tạp. Những lưu ý sau sẽ giúp giải quyết các thách thức về lưu trữ dữ liệu cho AI.
Dù ngày càng có nhiều doanh nghiệp ứng dụng, công nghệ AI vẫn là một lĩnh vực mới phát triển và đầy thách thức. Vẫn còn nhiều điều để các công ty ứng dụng chúng phải đương đầu, đặc biệt là các yêu cầu về lưu trữ.
May mắn là có một số nguyên tắc nhất định và các phương pháp triển khai tốt mà bộ phận CNTT có thể tuân theo để đảm bảo lưu trữ hiệu quả cho cả hệ thống vận hành AI.
Nhu cầu lưu trữ AI
Adrian Zidaritz, tác giả của AIbluedot.com, một trang web dành riêng cho các chủ đề về AI, và là cựu trưởng bộ phận khoa học dữ liệu tại Collective – một công ty tư vấn về AI – cho biết, khi các ứng dụng AI mở rộng sang nhiều lĩnh vực, công nghệ này chắc chắn sẽ trở nên phổ biến hơn.
“Do đó, điều cần thiết là các doanh nghiệp phải kết hợp các dự án dựa trên AI của họ với một công nghệ lưu trữ tương thích và hiệu quả”, Zidaritz nói. Anthony Ciarlo, lãnh đạo AI, hệ sinh thái và liên minh tại công ty tư vấn kinh doanh và công nghệ Deloitte Consulting, cho biết bộ nhớ cho AI tận dụng tốt hơn dữ liệu khối lượng công việc dựa trên AI và nâng cao trải nghiệm người dùng thông qua dữ liệu được chia sẻ dễ dàng.
Ciarlo cho biết: “Các tổ chức doanh nghiệp có chiến lược dữ liệu phù hợp có thời gian báo cáo nhanh hơn, tăng tính linh hoạt và độ sâu dữ liệu rộng hơn mà họ có thể phân tích so với các môi trường truyền thống.Các lợi ích chính bao gồm:
- Khả năng phân tích và sử dụng số lượng lớn dữ liệu chỉ bằng một phần nhỏ thời gian của báo cáo truyền thống.
- Các biện pháp bảo mật nâng cao và các giao thức truy cập. Lưu trữ cho AI cho phép các tổ chức đưa ra các quy tắc xác định ai có quyền truy cập và khi nào. Điều này giúp trao đổi dữ liệu dễ dàng và đảm bảo tập dữ liệu an toàn hơn, giúp giảm cả chi phí vận hành và tuân thủ.
John Langton, giám đốc khoa học dữ liệu ứng dụng tại công ty tư vấn quản lý Wolters Kluwer, cho biết một cơ sở hạ tầng kỹ thuật dữ liệu hoàn thiện cho phép người dùng tìm thấy thông tin họ cần nhanh hơn.
“Nó cũng cho phép sử dụng … dữ liệu cho các mục đích khác nhau, từ báo cáo đến phân tích cho đến các dự án AI tiên tiến hơn”, Langton nói.
Các mô hình lưu trữ và dữ liệu hiệu quả – cũng như các quy trình trích xuất, chuyển đổi và tải – sẽ giúp người dùng hợp lý hóa các hoạt động để các tổ chức có thể tập trung vào phân tích thay vì chuyển đổi dữ liệu.
Triển khai hệ thống lưu trữ cho AI
Goutham Belliappa, phó chủ tịch phụ trách kỹ thuật AI của công ty tư vấn kinh doanh và CNTT Capgemini, cho biết hầu hết các dự án AI sử dụng sự kết hợp giữa lưu trữ khối và đối tượng .
Belliappa cho biết: “Một kho lưu trữ khối hoạt động tốt nhất cho sự tương tác trực tiếp của người dùng, như hệ thống tệp, cơ sở dữ liệu hoặc bất kỳ ứng dụng nào yêu cầu đọc và ghi hiệu suất cao”. “Mặt khác, lưu trữ đối tượng mang lại độ bền và tính linh hoạt trong đó các ứng dụng – như cửa hàng đồ thị, trình phát video hoặc một số cơ chế khác có thể hiểu chỉ mục và vị trí – có thể truy cập dữ liệu được ghi một lần và đọc nhiều lần.”
Belliappa cho biết, cần xác định loại lưu trữ phù hợp với nhu cầu sử dụng.
Ông nói: “Hãy tránh những yếu tố trừu tượng, ví dụ, cung cấp cho bạn một cấu trúc giống như lưu trữ khối trên bộ lưu trữ đối tượng, nơi mà bạn sẽ gặp phải điều tồi tệ nhất trong cả hai”.
Làm việc để giới hạn kích thước tệp trong các môi trường phức tạp, chẳng hạn như những môi trường sử dụng Spark để xử lý song song và tệp gỗ. Cách phân vùng tệp cũng sẽ ảnh hưởng đáng kể đến hiệu suất và dẫn đến việc truy xuất dữ liệu nhanh hơn.
Xem xét đến đám mây
Ciarlo nói rằng đám mây – cụ thể hơn là đám mây công cộng, public cloud – nên được chú ý hàng đầu trong quá trình đánh giá các chiến lược lưu trữ AI.
Ông nói: “Tại đây, bạn sẽ tìm thấy những cải tiến và khả năng mới nhất vốn chỉ có sẵn trên đám mây.
Ví dụ, lưu trữ đối tượng được định hướng cho đám mây và đám mây cho phép chia sẻ và trao đổi dữ liệu.
Ciarlo nói: “Nếu không có những tiến bộ của công nghệ đám mây, lưu trữ bằng AI sẽ không phải là một chiến lược hiệu quả hoặc hoàn chỉnh.
Bài viết liên quan
- AI trong ngành Logistics: Những lợi ích chính và ứng dụng
- Máy chủ tăng tốc cho AI thúc đẩy tăng trưởng chi tiêu cho trung tâm dữ liệu
- Tôi có cần CPU kép không?
- Xây dựng hệ thống dữ liệu hiệu suất cao cho AI với VAST Data Platform
- Hướng dẫn lựa chọn GPU phù hợp cho AI, Machine Learning
- LLM: Lịch sử và tương lai của các mô hình ngôn ngữ lớn