Deduplication

Data Deduplication là gì? Khử trùng lặp dữ liệu là gì?

Data DeduplicationKhử trùng lặp dữ liệu, thường được gọi là nén dữ liệu thông minh hoặc single-instance storage, là một quá trình loại bỏ các bản sao dữ liệu dư thừa và giảm chi phí lưu trữ. Các kỹ thuật chống trùng lặp dữ liệu đảm bảo rằng chỉ một phiên bản dữ liệu duy nhất được giữ lại trên phương tiện lưu trữ, chẳng hạn như ổ đĩa, thiết bị lưu trữ flash hoặc băng từ/tape. Các khối dữ liệu dự phòng được thay thế bằng một con trỏ tới bản sao dữ liệu duy nhất. Theo cách đó, data deduplication liên quan chặt chẽ với phương thức sao lưu incremental backup, chỉ copy dữ liệu đã thay đổi kể từ lần backup trước.

Ví dụ: Một hệ thống email thông thường có thể chứa 100 phiên bản của cùng một tệp đính kèm 1 MB. Nếu nền tảng email được sao lưu hoặc lưu trữ, tất cả 100 phiên bản sẽ được lưu, nghĩa là cần đến 100 MB dung lượng lưu trữ. Với Data Deduplication, chỉ một phiên bản của tệp đính kèm được lưu trữ; mỗi phiên bản tiếp theo được tham chiếu trở lại một bản sao đã lưu. Trong ví dụ này, nhu cầu bộ nhớ 100 MB giảm xuống chỉ còn 1 MB.

Chống trùng lặp: Đích so với nguồn

Việc chống trùng lặp dữ liệu có thể xảy ra ở mức nguồn (source-based deduplication) hoặc đích (target-based deduplication).

Source-based deduplication loại bỏ các khối dư thừa trước khi truyền dữ liệu đến đích backup ở cấp client hoặc server. Không đòi hỏi phần cứng nào thêm. Việc chống trùng lặp tại nguồn làm giảm băng thông và tài nguyên lưu trữ.

Ở target-based deduplication, các bản backup được truyền qua mạng tới các tủ đĩa ở một vị trí xa. Sử dụng các deduplication target làm tăng chi phí, mặc dù nó thường cung cấp lợi thế hiệu suất so với source-based deduplication, đặc biệt đối với bộ dữ liệu có quy mô lớn đến hàng petabytes.

Các kỹ thuật để loại bỏ dữ liệu trùng lặp

Có hai phương pháp chính được sử dụng để loại bỏ trùng lặp dữ liệu thừa: loại bỏ trùng lặp nội tuyến (inline) và hậu xử lý (post-processing). Môi trường backup của bạn sẽ quyết định bạn sử dụng phương pháp nào.

Khử trùng lặp nội tuyến phân tích dữ liệu khi nó được nhập vào hệ thống sao lưu. Các phần trùng lặp bị loại bỏ khi dữ liệu được ghi vào bộ lưu trữ backup. Loại bỏ nội tuyến yêu cầu dung lượng backup ít hơn, nhưng có thể gây ra tắc nghẽn. Các nhà cung cấp mảng lưu trữ khuyên nên tắt tính năng khử trùng lặp dữ liệu nội tuyến của họ với các bộ lưu trữ chính để giữ cho hiệu suất cao nhất.

Khử trùng lặp hậu xử lý là một quá trình sao lưu không đồng bộ nhằm loại bỏ dữ liệu thừa sau khi nó được ghi vào bộ lưu trữ. Dữ liệu trùng lặp được xóa và thay thế bằng một con trỏ đến lần lặp đầu tiên của khối. Cách tiếp cận post-processing cung cấp cho người dùng sự linh hoạt để khử trùng lặp các tải công việc đặc thù và nhanh chóng khôi phục bản sao lưu gần đây nhất mà không cần chuyển đổi dữ liệu. Sự đánh đổi là dung lượng lưu trữ dự phòng lớn hơn mức cần thiết so với kiểu khử trùng lặp nội tuyến.