“Bigger Is Better” – Càng lớn càng tốt trong lưu trữ cho HPC

Samsung đã công bố ổ cứng dung lượng 30,72TB, định vị nó là ổ cứng SSD doanh nghiệp, cùng với dung lượng khổng lồ, có khả năng đọc gấp bốn lần và gấp ba lần khả năng ghi của ổ cứng SSD tiêu dùng. Nhưng với mức giá từ 10.000 – 20.000 USD, ai sẽ thực sự sử dụng chúng?

Rõ ràng các ổ cứng này được nhắm mục tiêu vào các công ty có ngân sách lớn dành cho IT, vậy làm thế nào để bạn tiếp tục tận dụng tốt nhất các ổ đĩa có dung lượng lớn nhất trong ngân sách có sẵn?

Lớn hơn đồng nghĩa với tốt hơn (bigger is better) trong ngành công nghiệp lưu trữ – chúng ta luôn muốn nhiều hơn nữa. Nhiều công ty sẽ chọn các ổ cứng lớn hơn và thường chỉ sử dụng các ổ cứng truyền thống vì liên quan đến chi phí. Sự thay thế bằng SSD đều tốn kém và có dung lượng hạn chế.

Giải pháp hạ tầng Deep Learning, Trí tuệ Nhân tạo - AI

Mặc dù có dung lượng lớn đến 30TB, nhưng điều thường bị bỏ qua là dung lượng lưu trữ này sẽ ảnh hưởng đến hiệu suất như thế nào. Nếu một khách hàng yêu cầu một dung lượng lưu trữ nhất định, nhưng cũng cần hiệu năng cao hơn một tỷ lệ cụ thể, bạn phải xem xét rằng hầu hết các ổ đĩa cứng truyền thống đều đạt hiệu suất tối đa khoảng 300MB/s. Khi bạn bắt đầu đưa các ổ cứng lớn hơn vào một hệ thống, bạn sẽ giảm số lượng ổ đĩa cần thiết để đáp ứng dung lượng. Vô tình, điều này sẽ làm giảm hiệu suất bạn có thể ra khỏi hệ thống, kích hoạt nhu cầu dung lượng lớn hơn mức yêu cầu, chỉ để đạt được con số hiệu suất cần thiết.

Thông thường mọi người không thừa nhận rằng ổ cứng càng lớn thì dữ liệu càng có nguy cơ bị hỏng nhiều hơn nếu ổ đĩa bị lỗi. Điều này giống nhau cho dù là ổ cứng SSD, tape hay ổ cứng cơ HDD. Với một lỗi xảy ra, bạn có khả năng mất tất cả dữ liệu trên ổ cứng đó.

Các công nghệ RAID truyền thống (redundant array of independent disks) chưa thực sự phát triển kể từ những năm 1980 khi chúng được phát triển lần đầu tiên. Có rất nhiều ngành công nghiệp vẫn đang sử dụng RAID 6, cho phép hai ổ cứng bị lỗi trong bộ RAID trước khi mất dữ liệu. Tuy nhiên, do tỷ lệ lỗi và thời gian build lại, bạn bị giới hạn bởi số lượng ổ cứng trong nhóm RAID cụ thể đó và bạn cũng bị giới hạn bởi tốc độ của chúng khi cố gắng build lại ổ đĩa bị mất và dữ liệu của nó.

Khi dung lượng của các ổ đĩa tiếp tục tăng với tốc độ theo cấp số nhân, sẽ mất nhiều thời gian hơn để build lại. Phải mất nhiều ngày để build lại các ổ đĩa trên dung lượng chúng ta đã có, vì vậy với các ổ cứng có dung lượng khoảng 30TB, có thể mất hơn một tuần để build lại một ổ đĩa bị lỗi. Với thời gian phục hồi lâu như vậy, điều này làm tăng nguy cơ thất bại của một ổ đĩa khác trong nhóm RAID.

Những thách thức này bắt đầu được giải quyết vài năm trước trong các hệ thống HPC và nền tảng điện toán đám mây, thay vì sử dụng RAID truyền thống, người ta sử dụng các “de-clustered arrays”, về cơ bản đặt nhiều ổ cứng vào cùng một nhóm và dữ liệu được phân phối rộng rãi hơn trên nhiều đĩa. Điều này làm giảm tác động của lỗi ổ cứng, ảnh hưởng đến việc mất một phần dữ liệu thay vì toàn bộ. Nó cũng cho phép một phần dữ liệu bị thiếu được build lại trước khi lỗi toàn bộ ổ cứng và tất cả các ổ đĩa tham gia vào quá trình tái tạo trên một lỗi ổ cứng.

Một sự khác biệt đáng chú ý khác trong cách tạo ra và sử dụng các hệ thống lưu trữ là thông qua sự hội tụ của cả tính toán và lưu trữ, với sự sẵn có của các kết nối mạng nhanh, có thể đưa vào các node máy chủ riêng lẻ với các ổ cứng dung lượng lớn và cho chúng tham gia vào hệ thống lưu trữ . Điều này cho phép mở rộng quy mô lưu trữ và hiệu suất mỗi khi bạn mở rộng cụm điện toán của mình.

Trong HPC truyền thống, cách tiếp cận mới hơn này vẫn chưa được chú ý và vẫn sử dụng các yếu tố hệ thống lưu trữ và tính toán riêng biệt. Trong khi bạn đang xem xét các nền tảng đám mây, chúng sẽ trở nên hội tụ hơn trong việc sử dụng các công nghệ, do đó, sự thất bại của một thành phần riêng lẻ trở thành ít vấn đề. Khi chạy các hệ thống HPC tại chỗ, các thành phần quan trọng hơn, đặc biệt là với bộ lưu trữ, khi sử dụng RAID truyền thống. Bằng cách sử dụng ổ đĩa 30TB và tăng dung lượng đáng kể, nó sẽ bắt đầu thúc đẩy thị trường HPC xem xét nhiều hơn về các “de-clustered arrays” như nêu trên, để cho phép thời gian build lại nhanh hơn trong trường hợp hỏng ổ đĩa.

Gần đây, chúng tôi đã thấy điều này với IBM, Lenovo và NetApp cung cấp các phiên bản riêng của các sản phẩm mảng tách cụm. Đây sẽ là một lựa chọn thực tế hơn cho các tổ chức đang tìm kiếm công suất lớn hơn trên ngân sách.

____
Bài viết liên quan

Góp ý / Liên hệ tác giả