4 cách để tối ưu hóa Data Center của bạn cho tải xử lý AI

Để nâng cao khả năng xử lý AI của trung tâm dữ liệu của bạn, hãy cân nhắc thực hiện những điều chỉnh này để giải quyết các nhu cầu đặc thù của AI.

AI đã sẵn sàng chuyển đổi các trung tâm dữ liệu theo nhiều cách — chẳng hạn như bằng cách thay đổi thị trường việc làm trong trung tâm dữ liệu và cải thiện hoạt động giám sát và ứng phó sự cố của trung tâm dữ liệu.

Tuy nhiên, có lẽ ảnh hưởng lớn nhất mà AI có thể tác động lên các trung tâm dữ liệu sẽ đến dưới dạng những thay đổi trong cách thức hoạt động của các trung tâm dữ liệu. Hạ tầng của cơ sở vật chất và cách họ quản lý nó phải thay đổi đối với các doanh nghiệp muốn tận dụng tối đa công nghệ AI hiện đại.

Vẫn còn phải xem chính xác các trung tâm dữ liệu sẽ phát triển như thế nào để đáp ứng với AI, nhưng dưới đây là gợi ý một số điều chỉnh quan trọng mà bạn có thể cân nhắc.

Nhu cầu đặc biệt của AI trong trung tâm dữ liệu

Để đánh giá tác động của AI lên trung tâm dữ liệu, trước tiên bạn phải hiểu tải xử lý AI khác với các loại tải xử lý khác (chẳng hạn như lưu trữ ứng dụng tiêu chuẩn) mà bạn gặp trong trung tâm dữ liệu như thế nào.

Mặc dù tải xử lý AI có nhiều dạng với các yêu cầu khác nhau, nhưng hầu hết đều đáp ứng các nhu cầu riêng sau:

  • Chúng đòi hỏi lượng tài nguyên máy tính khổng lồ, đặc biệt là khi thực hiện đào tạo mô hình.
  • Chúng được hưởng lợi từ việc chạy trên phần cứng cơ bản, đặc biệt là các máy chủ cung cấp quyền truy cập vào bộ xử lý đồ họa (GPU).
  • Tỷ lệ tiêu thụ tài nguyên của chúng có thể dao động đáng kể. Trong giai đoạn đào tạo, tải xử lý AI đòi hỏi nguồn lực rất lớn nhưng sau khi quá trình đào tạo hoàn tất, mức tiêu thụ tài nguyên sẽ giảm đáng kể trong hầu hết các trường hợp — cho đến lúc đào tạo lại mô hình.
  • Họ cần mạng có độ trễ cực thấp để đưa ra quyết định và mang lại kết quả theo thời gian thực.

Chắc chắn, các loại tải xử lý khác cũng có thể có những yêu cầu này; Ví dụ: chạy các ứng dụng và dịch vụ AI không phải là loại ứng dụng duy nhất có thể hưởng lợi từ các máy chủ vật lý. Nhưng nhìn chung, phần mềm AI yêu cầu các loại tài nguyên được mô tả ở trên ở mức độ lớn hơn nhiều so với các loại tải xử lý khác.

Nâng cấp trung tâm dữ liệu cho AI

Để tối ưu hóa cơ sở vật chất của chúng cho tải xử lý AI, nhiều nhà khai thác trung tâm dữ liệu sẽ cần thực hiện các thay đổi nhằm giải quyết các nhu cầu riêng của AI. Dưới đây là tổng quan về các thay đổi quan trọng của trung tâm dữ liệu về mặt này.

1. Thiết kế lại hoặc thay thế các máy chủ vật lý

Trong ít nhất một thập kỷ qua, máy ảo đã trở thành nguồn tài nguyên hạ tầng phù hợp để lưu trữ tải xử lý. Nhưng do nhu cầu về các ứng dụng và dịch vụ AI dành cho phần cứng vật lý, nhiều nhà khai thác trung tâm dữ liệu có thể sẽ thấy việc mở rộng các dịch vụ vật lý là điều quan trọng.

Ở một khía cạnh nào đó, điều này thực sự giúp đơn giản hóa hoạt động của trung tâm dữ liệu. Nếu bạn chạy tải xử lý trên hệ thống vật lý, bạn sẽ có một ngăn xếp lưu trữ ít phức tạp hơn vì bạn không có bộ giám sát ảo hóa và bộ điều phối VM trong một hệ thống hỗn hợp.

Mặt khác, việc mở rộng hạ tầng cơ bản để lưu trữ tải xử lý có thể yêu cầu các trung tâm dữ liệu cập nhật loại máy chủ mà họ lưu trữ và các tủ rack chứa các máy chủ. Thông thường, cách đơn giản nhất để thiết lập máy chủ trong trung tâm dữ liệu là mua các máy cơ bản mạnh mẽ, sau đó chia chúng thành nhiều máy ảo tùy theo tải xử lý của bạn yêu cầu. Nhưng nếu bạn cần chạy tải xử lý trực tiếp trên nền vật lý, bạn có thể cần nhiều máy chủ hơn để tách tải xử lý — điều đó có nghĩa là các trung tâm dữ liệu sẽ phải đổi máy chủ công suất cao lấy máy chủ nhỏ hơn và có thể điều chỉnh lại tủ rack cho phù hợp.

2. Quyền truy cập được chia sẻ vào các máy chủ hỗ trợ GPU

Mặc dù nhiều tải xử lý AI có thể được hưởng lợi từ các máy chủ hỗ trợ GPU khi thực hiện đào tạo AI, nhưng các ứng dụng AI không nhất thiết cần GPU cho các hoạt động hàng ngày. Vì lý do đó, nhiều doanh nghiệp chỉ yêu cầu quyền truy cập tạm thời vào hạ tầng hỗ trợ GPU.

Để đáp ứng nhu cầu đó, các nhà khai thác trung tâm dữ liệu nên xem xét các dịch vụ cho phép các công ty chia sẻ quyền truy cập vào hạ tầng hỗ trợ GPU. Tương đối ít doanh nghiệp muốn sở hữu máy chủ được trang bị GPU vì họ sẽ không cần chúng thường xuyên. Nhưng nếu các nhà khai thác trung tâm dữ liệu có thể cung cấp quyền truy cập vào GPU trên cơ sở tạm thời — chẳng hạn như thông qua mô hình GPU-as-a-service — thì họ đang ở trong một vị thế mạnh mẽ hơn để thu hút các doanh nghiệp có yêu cầu về tải xử lý AI.

3. Giải pháp mạng nâng cao

Hầu hết các trung tâm dữ liệu cấp doanh nghiệp đều cung cấp quyền truy cập vào hạ tầng mạng hiệu suất cao cũng như kết nối giúp di chuyển dữ liệu đến các cơ sở bên ngoài càng nhanh càng tốt. Nhưng để tận dụng tối đa lợi thế của AI, các dịch vụ kết nối mạng của trung tâm dữ liệu có thể sẽ cần mạnh mẽ hơn nữa.

Các doanh nghiệp có tải xử lý AI sẽ tìm kiếm hai tính năng chính: thứ nhất, kết nối mạng băng thông cao có thể di chuyển lượng dữ liệu khổng lồ cực nhanh, điều này rất quan trọng khi đào tạo các mô hình AI trên hạ tầng phân tán. Và thứ hai, họ sẽ muốn các mạng có thể mang lại độ trễ ở mức một chữ số, điều này rất cần thiết nếu bạn muốn các ứng dụng và dịch vụ AI hoạt động trong thời gian thực thực sự.

4. Trung tâm dữ liệu linh hoạt hơn

Vì tải xử lý AI có yêu cầu tài nguyên rất biến động nên chúng có thể sẽ tạo ra nhu cầu về các trung tâm dữ liệu linh hoạt hơn về quy mô hạ tầng cần hỗ trợ. AI cũng có thể thu hút nhiều sự quan tâm hơn đến các dịch vụ cho phép các công ty triển khai máy chủ theo yêu cầu bên trong trung tâm dữ liệu bên ngoài, thay vì thiết lập các máy chủ đó của chính họ, vì hạ tầng theo yêu cầu là một cách tốt để giải quyết các nhu cầu tài nguyên luôn biến động.

Để đạt được mục tiêu này, các nhà khai thác trung tâm dữ liệu mong muốn tối ưu hóa cho AI nên xem xét các dịch vụ giúp cơ sở của họ linh hoạt hơn. Các hợp đồng ngắn hạn hơn, kết hợp với các dịch vụ không chỉ bao gồm không gian lưu trữ nơi khách hàng có thể thiết lập hạ tầng của riêng mình, có khả năng giúp thu hút các tổ chức cần triển khai tải xử lý AI.

Phần kết luận

Một lần nữa, cuộc cách mạng AI vẫn đang diễn ra và còn quá sớm để biết chính xác AI sẽ thay đổi cách thức hoạt động của các trung tâm dữ liệu hoặc loại hạ tầng được triển khai trong đó như thế nào. Nhưng đó là một sự đánh cược tương đối an toàn rằng những thay đổi như nhiều máy chủ hỗ trợ GPU hơn và các giải pháp linh hoạt hơn có thể sẽ trở nên quan trọng trong một thế giới lấy AI làm trung tâm. Các nhà khai thác trung tâm dữ liệu muốn nắm lấy “miếng bánh” AI của mình phải đảm bảo cập nhật cơ sở vật chất của họ theo những cách đáp ứng các yêu cầu đặc biệt của tải xử lý AI.

____
Bài viết liên quan
Góp ý / Liên hệ tác giả