Có rất nhiều cách AI có thể tăng cường hỗ trợ các chuyên gia dữ liệu trong suốt quy trình thao tác dữ liệu, từ việc sàng lọc thông qua các tập dữ liệu lớn để tìm các trùng lặp, cho đến việc giảm bớt quá trình chuẩn bị dữ liệu.
Khoa học viễn tưởng từ lâu đã đoán trước ngày Trí tuệ Nhân tạo sẽ được tạo ra, thường là với các kết cục tiêu cực. Thực tế đã chứng minh cho đến nay vẫn cho thấy còn nhiều điều viễn vông, với những hứa hẹn ban đầu về các “hệ thống chuyên gia” có thể thay thế tất cả các “chuyên gia con người” bằng xương bằng thịt, hóa ra vẫn chưa hiện thực.
Tuy nhiên, đã có nhiều tiến bộ về AI trong những năm gần đây, đem đến những hy vọng về khả năng ứng dụng nó trong các lĩnh vực như y học, phát hiện gian lận và thậm chí tự động sinh các dòng tiêu đề tiếp thị qua email – một ứng dụng mà eBay đã sử dụng. Làm thế nào để thế giới AI mới này áp dụng vào quản lý dữ liệu?
Có rất nhiều ứng dụng cho AI trong quản lý dữ liệu để hợp lý hóa toàn bộ quy trình. Dưới đây là ba ứng dụng chính cho các công nghệ đang phát triển.
AI trong quản lý dữ liệu tổng thể
Một ví dụ rõ ràng về AI trong quản lý dữ liệu là đối chiếu dữ liệu, đây là yếu tố cốt lõi của chất lượng dữ liệu và các công cụ quản lý dữ liệu tổng thể.
Điều khá phổ biến là tìm thấy sự trùng lặp 20% – 30% trong các file tài liệu gốc (master) và các nguồn dữ liệu khác được xem là bản gốc. Trong các công ty lớn, dữ liệu liên quan đến các đối tượng chính như khách hàng hoặc sản phẩm thường bị trùng lặp trên nhiều hệ thống. Các phiên bản khác nhau của bản ghi địa chỉ và tên khách hàng có thể không đầy đủ, lỗi thời hoặc sai lệch. Và nhân viên có thể nhập dữ liệu vào các hệ thống tiếp thị và bán hàng khác nhau mà không nhận ra rằng hồ sơ khách hàng đã tồn tại.
Việc loại bỏ các bản trùng lặp đã dẫn đến nhiều công cụ khác nhau áp dụng các thuật toán để phát hiện các lỗi chính tả phổ biến, xác minh mã bưu điện và nhận ra rằng Robert và Bob có thể là cùng một người. Tuy nhiên, chỉ một tỷ lệ nhất định các bản ghi là bản sao rõ ràng và một phần lớn các bản ghi có khả năng trùng lặp cần được chuyên gia (là con người) xem xét.
Một hệ thống chuyên gia bằng máy có thể được đào tạo bằng cách xem xét cách một chuyên gia con người xem xét hàng trăm hồ sơ như vậy và đưa ra các quy tắc cho phép phần mềm ngày càng hoàn thiện hơn trong việc bắt chước hành vi của chuyên gia con người. Bằng cách này, phần mềm có thể tự động khớp các bản ghi một cách đáng tin cậy ở một tỷ lệ số trường hợp cao hơn nhiều.
AI trong các catalog dữ liệu
Một lĩnh vực khác mà AI hứa hẹn là trong các catalog (danh mục) dữ liệu hoặc các kho dữ liệu metadata, vốn từ lâu đã bị lỗi thời do bối cảnh của các ứng dụng trong doanh nghiệp thay đổi.
Việc gắn thẻ các từ khóa kinh doanh thông qua học máy có thể chủ động học hỏi từ thông tin nhập của người dùng chuyên nghiệp và đề xuất từ khóa dựa trên các hành động trước đó của con người. Hệ thống có thể nhận ra sự giống nhau giữa các mục trong danh mục dữ liệu và đưa ra đề xuất về các điều khoản kinh doanh sẽ được gán.
AI trong công tác chuẩn bị dữ liệu (data preparation)
Một lĩnh vực khác mà AI trong quản lý dữ liệu có ích lợi là chuẩn bị dữ liệu, quá trình lấy dữ liệu thô và chuẩn bị cho quá trình xử lý, phân tích tiếp theo.
Chuẩn bị dữ liệu là một thực hành cần thiết khi bạn xác định các nguồn dữ liệu của mình, có thể trùng lặp; tìm ra nơi dữ liệu đang được sử dụng và liệu nó có đáng tin cậy hay không; quyết định xem nó có cần được liên kết với các nguồn dữ liệu khác hay không; và có thể làm phong phú nó với các thuộc tính bổ sung.
Các công cụ AI rất thích hợp để phân tích mối quan hệ giữa các nguồn dữ liệu và áp dụng các quy tắc sống sót để quyết định nguồn nào đáng tin cậy nhất . Ví dụ, các chương trình AI có thể xác định rằng một địa chỉ được cập nhật vào tháng trước có thể đáng tin cậy hơn địa chỉ được cập nhật 10 năm trước.
Cũng giống như đối chiếu dữ liệu, trong nhiều trường hợp, mọi thứ không rõ ràng và đòi hỏi sự đánh giá của con người. Bằng cách theo dõi hành động của các chuyên gia trong lĩnh vực, một chương trình AI có thể dần dần học cách bắt chước phán đoán của một chuyên gia.
Những thách thức với AI trong quản lý dữ liệu
Mặc dù có rất nhiều lợi ích đối với việc quản lý dữ liệu dựa trên AI, nhưng công nghệ này vẫn đang phát triển và đã được chứng minh là đầy thách thức trong một số môi trường. Nhiều mô hình AI là chiếc hộp đen, tức là chúng phải vật lộn để giải thích lý do của mình theo cách mà con người có thể tiếp cận được. Điều này khiến niềm tin trở thành một vấn đề, đặc biệt là khi có những ví dụ được công bố rộng rãi trong đó AI không mang lại hiệu quả như mong đợi.
Năm 2013, IBM hợp tác với Trung tâm Ung thư MD Anderson của Đại học Texas để sử dụng IBM Watson để rà soát dữ liệu bệnh nhân và nghiên cứu nhằm phát hiện ra các hình mẫu có thể giúp bác sĩ chống lại bệnh ung thư. Một mục tiêu đáng ngưỡng mộ, nhưng sau năm năm xem xét lại hệ thống đã tìm thấy “nhiều ví dụ về các khuyến nghị điều trị không an toàn và không chính xác”, theo các chuyên gia y tế của dự án.
Một cuộc khảo sát năm 2018 với 200 CIO của Databricks đã tìm thấy một số thách thức lớn trong việc triển khai các chương trình AI. 98% người trả lời khảo sát mô tả việc chuẩn bị các data set lớn là một thách thức, 96% cho biết điều tương tự đối với việc khám phá dữ liệu và đào tạo mô hình lặp lại và 90% nhận thấy việc triển khai các mô hình AI vào thực tế là một thách thức.
Tuy nhiên, trong các lĩnh vực được xác định rõ ràng như đối chiếu dữ liệu và danh mục dữ liệu, rõ ràng có tiềm năng tự động hóa các nhiệm vụ mà con người lâu nay cảm thấy cực kỳ tẻ nhạt. Trong nhiều trường hợp, ứng dụng hợp lý của AI trong quản lý dữ liệu – mà không cường điệu khả năng của chúng – có thể mang lại lợi ích thực sự cho doanh nghiệp.
Bài viết liên quan
- AI trong ngành Logistics: Những lợi ích chính và ứng dụng
- Máy chủ tăng tốc cho AI thúc đẩy tăng trưởng chi tiêu cho trung tâm dữ liệu
- Tôi có cần CPU kép không?
- Xây dựng hệ thống dữ liệu hiệu suất cao cho AI với VAST Data Platform
- Hướng dẫn lựa chọn GPU phù hợp cho AI, Machine Learning
- LLM: Lịch sử và tương lai của các mô hình ngôn ngữ lớn