Kinh nghiệm xây dựng chiến lược lưu kho dữ liệu dài hạn thành công

Một quy trình lưu kho dữ liệu (data archiving) tốt cung cấp khả năng tự động hóa để cung cấp độ chi tiết cần thiết của ứng dụng, trong khi giảm thiểu tác động đến các hoạt động của bộ phận CNTT.

Bạn sẽ học được gì: Các công cụ và quy trình kỹ thuật cần thiết cho một chiến lược lưu kho dữ liệu hiệu quả phụ thuộc hoàn toàn vào các yêu cầu về quy định tuân thủ, quản trị dữ liệu và công tác quản lý lưu trữ của một công ty.

Có một câu chuyện kể rằng ai đó đã từng hỏi Abraham Lincoln rằng chân của con người phải dài như thế nào mới đủ. Vị tổng thống thứ 16 đã trả lời rằng: “Đủ dài để chạm tới mặt đất”. Tương tự, khi nói đến câu hỏi “dữ liệu nên được lưu trữ trong bao lâu”, câu trả lời có thể là, “Đủ lâu để chắc chắn rằng dữ liệu đó có sẵn khi bạn cần đến”. Câu khẳng định này cho thấy hai biến số quan trọng nhất của phương trình lưu kho dữ liệu: thời giankhả năng truy cập.

Giải pháp ảo hóa hạ tầng lưu trữ

Thời gian, hay chính xác hơn là khoảng thời gian lưu giữ, là yếu tố “mũi nhọn” khi kết hợp nhu cầu của một tổ chức với các giải pháp lưu trữ tiềm năng. Các yêu cầu về lưu giữ dữ liệu có thể hay thay đổi, thường được xác định trên cơ sở từng ứng dụng. Ví dụ, tất cả các tổ chức phải quản lý dữ liệu tài chính, dữ liệu này thường phải được lưu giữ trong bảy năm. Dữ liệu về nguồn nhân lực có thể cần được lưu giữ trong ba năm, nhưng quy định đó có thể thay đổi theo từng quốc gia. Dữ liệu y tế có thể được lưu giữ theo thời gian sống của bệnh nhân cộng thêm bảy năm sau đó, dữ liệu điện hạt nhân trong 70 năm, v.v.

Có một câu trả lời đơn giản cho câu hỏi về điểm chung của tất cả những khoảng thời gian này: vấn đề tuân thủ. Trong hầu hết các trường hợp, yêu cầu lưu giữ phù hợp với giới hạn để một bên nào đó (chính phủ hoặc tư nhân) khởi kiện tổ chức khác. Việc không xuất trình được hồ sơ dữ liệu theo yêu cầu của tòa án có thể dẫn đến các hình phạt dân sự và trong một số trường hợp là tội phạm hình sự. Mặt khác, việc lưu giữ hồ sơ quá thời hạn được ủy quyền khiến chúng có thể bị pháp luật phát hiện và gây nguy hiểm không cần thiết cho trạng thái pháp lý của tổ chức.

Thật không may (hoặc có thể là may mắn), hầu hết những người làm công nghệ thông tin không có nền tảng pháp lý tốt. Vì vậy, bước một trong việc phát triển chiến lược lưu giữ dữ liệu là kiểm kê dữ liệu và ấn định lịch trình lưu giữ cho nó. Cố vấn của công ty có thể cung cấp các thông số cần thiết. Nếu các luật sư không thể (và bạn sẽ ngạc nhiên về tần suất họ từ chối làm như vậy), thì những người đứng đầu các bộ phận riêng lẻ “sở hữu” dữ liệu có thể cung cấp thông tin lưu giữ, vì họ đã quen thuộc với môi trường pháp lý của khu vực của họ. Đôi khi, luật sư và lãnh đạo bộ phận không muốn đào sâu vào các khung thời gian. Trong trường hợp đó, các đơn vị CNTT không nên dự đoán. Trong trường hợp không có khung thời gian cụ thể, khoảng thời gian lưu giữ mặc định sẽ là “mãi mãi”! Mặc dù điều đó không tối ưu, nhưng nó là lựa chọn duy nhất cho các IT manager.

Thuật ngữ lưu trữ dài hạn / lưu kho (archive) đã được sử dụng một cách khá lỏng lẻo trong vài năm qua. Việc lưu kho dữ liệu có thể đề cập đến việc di chuyển dữ liệu được truy cập không thường xuyên sang tủ đĩa dung lượng cao, chi phí thấp (bao gồm hệ thống lưu trữ được phân tầng), sao lưu vào băng từ và lưu trữ off-line / off-site. Tương tự như việc có một chuỗi bảo vệ dữ liệu liên tục (tức là kết hợp các snapshot, backup và replication), các tổ chức sẽ có một chuỗi lưu trữ dữ liệu liên tục. Sự liên tục này sẽ là cần thiết để đáp ứng các khung thời gian khác nhau được đề cập ở trên với mức chi phí hiệu quả. Việc đáp ứng các nhu cầu khác nhau này sẽ được cân bằng với sự phức tạp và một giải pháp lưu trữ tốt sẽ cung cấp khả năng tự động hóa cần thiết nhằm cung cấp độ chi tiết mà ứng dụng cần đến trong khi giảm thiểu tác động đến các hoạt động của bộ phận IT.

Các lợi ích của việc lưu kho dữ liệu

Các đơn vị CNTT sẽ có động lực để thực hiện việc lưu kho dữ liệu nhằm mục đích tăng cường chung hoặc vì các lý do theo đặc thù ứng dụng. Trong cả hai trường hợp, lợi ích mong đợi của việc lưu kho bao gồm:

  • Cắt giảm chi phí. Lưu kho dữ liệu dài hạn phần lớn là một nỗ lực để cắt giảm chi phí. Giá trị này được đo bằng $/gigabyte được lưu trữ. Có nhiều nhà cung cấp đưa ra phân tích tổng chi phí sở hữu (TCO) cho khách hàng. Tất cả các mô hình được kỳ vọng sẽ mang lại kết quả tích cực, vì vậy kết quả chỉ có ý nghĩa nếu bạn đồng ý với cả dữ liệu đầu vào và tiền đề cơ bản của mô hình TCO.
  • Giảm khung thời gian sao lưu (backup window). Ngay cả khi sao lưu vào tủ đĩa, nén dữ liệu và chống trùng lặp (deduplication), các khung thời gian sao lưu phải đối mặt với áp lực liên tục từ việc tốc độ tăng trưởng dữ liệu thường vượt quá tốc độ tăng trưởng kép hàng năm 50%. Không có ích gì khi sao lưu liên tục các dữ liệu không có thay đổi. Việc lưu kho có thể loại bỏ từ hàng chục terabyte dữ liệu trở lên khỏi các bộ backup.
  • Tuân thủ các quy định. Như đã đề cập ở trên, các yêu cầu của chính phủ và trách nhiệm pháp lý là những lý do chính để thực hiện chiến lược lưu giữ dữ liệu dài hạn. Làm việc đó với chi phí thấp nhất là một giải pháp khôn khéo.
  • Lưu giữ kiến ​​thức. Trong thời đại của dữ liệu lớn (Big Data), các doanh nghiệp đang tìm hiểu giá trị của việc phân tích một lượng lớn dữ liệu. Ở đây, sự cân nhắc không phải là vấn đề chi phí, mà là mong muốn đạt được lợi thế cạnh tranh trên thị trường.
  • Cải thiện hiệu suất. Bằng cách giảm lượng dữ liệu được quản lý hoặc phân vùng dữ liệu không sử dụng khỏi dữ liệu đang hoạt động, các doanh nghiệp có thể thấy sự cải thiện đáng kể về hiệu suất chung của hệ thống.

Các sản phẩm lưu kho dữ liệu đặc thù cho ứng dụng được điều chỉnh để mang lại những lợi ích này cho các môi trường cụ thể. Chẳng hạn các ứng dụng SAP, email và Oracle. Các sản phẩm dành riêng cho ứng dụng được thiết kế để hiểu được các chi tiết của ứng dụng để chúng có thể cắt giảm hoặc tách biệt dữ liệu theo cách tối ưu hóa cho ứng dụng mà không gây nguy hiểm cho tính toàn vẹn dữ liệu. Các trình lưu kho dữ liệu chung chung thường không đủ thông minh để thực hiện việc này. Một công cụ dành riêng cho ứng dụng có thể là tất cả những gì cần thiết khi data volume không đảm bảo cho việc triển khai trên toàn hệ thống, điểm khó khăn lớn liên quan đến một ứng dụng đặc thù hoặc một sản phẩm có mục đích chung sẽ không giải quyết đầy đủ nhu cầu của một ứng dụng nhất định.

____
Bài viết liên quan

Góp ý / Liên hệ tác giả