Mất điện, sự cố hệ thống làm mát và vấn đề từ nhà cung cấp bên thứ ba là một số mối đe dọa tiềm ẩn lớn nhất đối với tỷ lệ uptime (uptime) của trung tâm dữ liệu. Bài này sẽ bàn về cách giảm thiểu những rủi ro này một cách hiệu quả.
Nếu muốn tăng uptime cho trung tâm dữ liệu, vấn đề trước tiên là xác định và giảm thiểu các nguồn tác động phổ biến nhất. Điều này có thể không dễ dàng gì vì có rất nhiều yếu tố tác động đến, khiến trung tâm dữ liệu có thể gián đoạn dịch vụ và thường là không thể đi sâu vào hết từng cái. Thay vào đó, các nhà điều hành trung tâm dữ liệu phải quyết định mối đe dọa nào cần ưu tiên xử lý trước.
Để đạt được mục đích đó, một báo cáo mới vừa được Uptime Institute đưa ra cung cấp các hướng dẫn hữu ích. Báo cáo nêu chi tiết những thách thức phổ biến nhất đối với việc tăng uptime của trung tâm dữ liệu tính đến năm 2024 và đưa ra một số phát hiện đáng ngạc nhiên về những sự kiện nào gây ra sự cố downtime của trung tâm dữ liệu.
Các mối đe dọa lớn nhất đối với uptime của trung tâm dữ liệu
Bạn có thể nghĩ rằng nguyên nhân phổ biến nhất gây ra downtime của trung tâm dữ liệu là những rủi ro như tấn công mạng hoặc thiên tai, thời tiết, những yếu tố này thường nhận được nhiều sự chú ý trên phương tiện truyền thông mỗi khi chúng xảy ra.
Tuy nhiên, trên thực tế, đây là những rủi ro không đáng kể theo quan điểm uptime của trung tâm dữ liệu. Các vấn đề cốt lõi của hầu hết các lỗi trung tâm dữ liệu nằm trong các loại sau:
1. Lỗi hệ thống vật lý
Lý do phổ biến nhất khiến các trung tâm dữ liệu bị lỗi là sự cố về nguồn điện. Theo báo cáo của Uptime Institute, chúng chiếm tới 52% tổng số sự cố gián đoạn của trung tâm dữ liệu.
19% sự cố gián đoạn tiếp theo bắt nguồn từ các vấn đề làm mát của trung tâm dữ liệu, được Viện phân loại riêng với các vấn đề về hệ thống điện.
Điều này cho thấy rủi ro cho uptime lớn nhất đối với các trung tâm dữ liệu, cho đến hiện nay, đó là sự cố của các hệ thống vật lý. Các nhà điều hành trung tâm dữ liệu muốn cải thiện uptime nên đầu tư vào các giải pháp như nguồn cung cấp điện dự phòng hoặc hệ thống HVAC.
2. Thách thức từ nhà cung cấp bên thứ ba
Mối đe dọa phổ biến tiếp theo đối với uptime của trung tâm dữ liệu là những gì Uptime Institue xếp vào các vấn đề với nhà cung cấp bên thứ ba. Chúng có nghĩa là các lỗi do các nhà cung cấp dịch vụ mà các công ty ký hợp đồng quản lý trung tâm dữ liệu thông qua thỏa thuận thuê ngoài hoặc các thỏa thuận tương tự gây ra.
Thật khó để nói liệu việc chuyển qua vận hành trung tâm dữ liệu từ đội ngũ nội bộ có thể giảm thiểu vấn đề này hay không. Có vẻ như lý do là các công ty cho thuê ngoài, chuyên về các hoạt động trung tâm dữ liệu hàng ngày, có khả năng đạt được tỷ lệ uptime tốt hơn so với các doanh nghiệp mà việc quản lý trung tâm dữ liệu không phải là trọng tâm chính của họ. Nhưng thành quả của bạn trên khía cạnh này có thể khác nhau tùy thuộc vào mức độ thành thạo của nhân viên nội bộ của bạn (hoặc không) trong việc quản lý trung tâm dữ liệu.
Trong mọi trường hợp, điểm này là lời nhắc nhở rằng nếu bạn chọn nhà cung cấp bên thứ ba để quản lý hoạt động của trung tâm dữ liệu, bạn nên hỏi về hồ sơ uptime của họ để đảm bảo nhà cung cấp không trở thành mắt xích yếu nhất trong chiến lược đảm bảo uptime cho trung tâm dữ liệu của bạn.
3. Lỗi thiết bị CNTT
Lỗi phần cứng và phần mềm của hệ thống CNTT là nguyên nhân phổ biến thứ ba gây ra downtime của trung tâm dữ liệu – điều này không có gì đáng ngạc nhiên vì các công ty đã phải vật lộn với tình trạng máy chủ bị sập kể từ buổi ban đầu của kỷ nguyên số.
Không có giải pháp thần kỳ nào có thể giảm thiểu triệt để rủi ro này, nhưng có những chiến lược đã được thử nghiệm và chứng minh là hiệu quả – chẳng hạn như đầu tư vào các giải pháp giám sát và theo dõi tốt hơn và tạo môi trường CNTT dự phòng có đầy đủ các biện pháp kiểm soát dự phòng tự động để nếu máy chủ gặp sự cố, tải xử lý của máy chủ đó có thể chuyển sang máy chủ khác ngay lập tức.
4. Lỗi mạng
Lỗi mạng cũng tương tự như lỗi thiết bị CNTT: Chúng góp phần gây ra downtime của trung tâm dữ liệu ở mức gần như giống hệt nhau và là một loại thách thức mà các doanh nghiệp đã phải đối mặt từ lâu.
Tương tự như việc tăng uptime của thiết bị CNTT, các chiến lược nhằm cải thiện độ tin cậy của mạng trong các trung tâm dữ liệu bao gồm giám sát mạng tốt hơn và xây dựng tính dự phòng vào mạng để các gói tin có thể đi theo các tuyến đường thay thế nếu một phần mạng của bạn ngừng hoạt động.
Việc sử dụng nhiều hơn các giải pháp Software-Defined Network (SDN) cũng có thể cải thiện độ tin cậy của mạng bằng cách giúp xác định và giảm thiểu lỗi dễ dàng hơn bằng cách sử dụng các biện pháp kiểm soát phần mềm thay vì thiết bị mạng vật lý.
Những thách thức khác về uptime của trung tâm dữ liệu
Cháy nổ và sự cố bảo mật thông tin cũng nằm trong bảng xếp hạng các nguyên nhân gây ra sự cố downtime của trung tâm dữ liệu từ Uptime Institute – nhưng chỉ chiếm một phần nhỏ. Chúng chiếm lần lượt 3% và 1% trong tổng số các sự cố gây downtime.
Tất nhiên, điều này không có nghĩa là bạn không cần bận tâm đến việc đầu tư vào các biện pháp giảm thiểu hỏa hoạn và bảo vệ an ninh mạng. Nhưng nếu bạn đang cố gắng quyết định loại rủi ro đến uptime nào cần ưu tiên, dữ liệu báo cáo cho thấy rằng đây không phải là hành động duy nhất trong danh sách của bạn.
Theo DCK
Bài viết liên quan
- Máy chủ tăng tốc cho AI thúc đẩy tăng trưởng chi tiêu cho trung tâm dữ liệu
- Cách quản lý hiệu quả phần cứng của bạn trong các trung tâm dữ liệu co-location
- Cluster Computing – Thế nào là điện toán cụm?
- Mười điều quan trọng trong checklist triển khai một hệ thống máy chủ
- 4 cách để tối ưu hóa Data Center của bạn cho tải xử lý AI