Trợ lý ảo (Virtual Digital Assistant hay Virtual Assistant) là một chương trình có khả năng hiểu ngôn ngữ tự nhiên và có thể trả lời các câu hỏi hoặc hoàn thành nhiệm vụ dựa trên khẩu lệnh (voice command).
Trợ lý ảo là gì?
Các trợ lý ảo như Siri, Alexa, Google Home và Cortana sử dụng AI đàm thoại (conversational AI) để nhận dạng và phản hồi các khẩu lệnh nhằm thực hiện các tác vụ điện tử. AI đàm thoại là ứng dụng của học máy để phát triển các ứng dụng dựa trên ngôn ngữ cho phép con người tương tác tự nhiên với các thiết bị, máy móc và máy tính bằng giọng nói. Người dùng sử dụng AI đàm thoại khi trợ lý ảo đánh thức bạn dậy vào buổi sáng. Người dùng nói bằng giọng nói bình thường của mình, thiết bị sẽ hiểu, tìm câu trả lời phù hợp nhất và trả lời bằng giọng nói tự nhiên.
Trợ lý ảo về cơ bản là giao diện người dùng hỗ trợ giọng nói cho các ứng dụng đám mây. Phần mềm này thường được nhúng trong điện thoại thông minh, máy tính bảng, máy tính để bàn và trong một số thiết bị chuyên dụng. Trong hầu hết các trường hợp, trợ lý ảo được kết nối với Internet để truy cập đến đám mây để nhận dạng giọng nói và thực hiện các truy vấn. Công nghệ đằng sau AI đàm thoại rất phức tạp, bao gồm một quy trình gồm nhiều bước đòi hỏi sức mạnh xử lý cực lớn và các phép tính phải diễn ra trong vòng chưa đầy 300 mili giây để mang lại trải nghiệm tốt nhất cho người dùng.
Các trợ lý ảo có tên tuổi như Alexa của Amazon, Siri của Apple và Cortana của Microsoft được điều chỉnh để đáp ứng các yêu cầu đơn giản mà không cần chuyển ngữ cảnh từ cuộc trò chuyện này sang cuộc trò chuyện khác. Một phiên bản chuyên biệt hơn của trợ lý cá nhân là trợ lý khách hàng ảo (virtual customer assistant), hiểu ngữ cảnh và có thể thực hiện cuộc trò chuyện từ tương tác này sang tương tác khác. Một dạng AI đàm thoại chuyên biệt khác là trợ lý nhân viên ảo (virtual employee assistants), giúp tìm hiểu bối cảnh tương tác của nhân viên với các ứng dụng phần mềm và quy trình công việc, đồng thời đề xuất các cải tiến. Trợ lý nhân viên ảo được sử dụng rộng rãi trong danh mục phần mềm mới phổ biến về tự động hóa quy trình bằng robot.
Tại sao lại là Trợ lý ảo và AI đàm thoại?
Nhu cầu về trợ lý giọng nói số (digital voice assistants) đang gia tăng: Công ty nghiên cứu Juniper ước tính sẽ có 8 tỷ trợ lý giọng nói số được sử dụng vào năm 2023, nhiều hơn gấp ba lần so với con số 2,5 tỷ đã được sử dụng vào cuối năm 2018. Việc chuyển hướng sang làm việc tại nhà, khám bệnh từ xa và học tập từ xa đã tạo ra sự gia tăng nhu cầu đối với các dịch vụ AI tùy biến dựa trên ngôn ngữ, từ hỗ trợ khách hàng đến phiên âm thời gian thực và tóm tắt các cuộc gọi video để giúp mọi người làm việc hiệu quả hơn.
Các ứng dụng trong AI đàm thoại đang phát triển hàng ngày, từ trợ lý giọng nói đến hệ thống trả lời câu hỏi cho phép khách hàng tự phục vụ. Phạm vi các ngành áp dụng AI đàm thoại vào các giải pháp của họ rất rộng và có các lĩnh vực đa dạng trải dài từ tài chính đến chăm sóc sức khỏe. Công nghệ này đặc biệt hữu ích trong các tình huống sử dụng màn hình hoặc bàn phím không thuận tiện hoặc không an toàn, chẳng hạn như khi lái xe ô tô. Trợ lý ảo đã phổ biến trên điện thoại thông minh. Khi các ứng dụng trở nên phổ biến và được triển khai thông qua các thiết bị trong nhà, ô tô và văn phòng, nghiên cứu từ các học viện và ngành công nghiệp này đã bùng nổ.
AI đàm thoại hoạt động như thế nào?
Trợ lý ảo yêu cầu lượng dữ liệu khổng lồ và kết hợp khả năng trí tuệ nhân tạo. Các thuật toán cho phép trợ lý học hỏi từ các yêu cầu và cải thiện phản hồi theo ngữ cảnh, chẳng hạn như cung cấp câu trả lời dựa trên các truy vấn trước đó.
Một ứng dụng AI đàm thoại điển hình sử dụng ba hệ thống con (subsystem) để thực hiện các bước xử lý và sao chép âm thanh – hiểu (kết xuất) ý nghĩa của câu hỏi được hỏi, tạo câu trả lời (văn bản) và đọc câu trả lời lại cho người nghe. Các bước này đạt được nhờ nhiều giải pháp học sâu hoạt động cùng nhau. Thứ nhất, nhận dạng giọng nói tự động (ASR) được sử dụng để xử lý tín hiệu âm thanh thô và sao chép văn bản từ tín hiệu đó. Thứ hai, xử lý/hiểu ngôn ngữ tự nhiên (NLP/NLU) được sử dụng để lấy ý nghĩa từ văn bản được sao chép (đầu ra của ASR). Cuối cùng, tổng hợp giọng nói hoặc chuyển văn bản thành giọng nói (TTS) được sử dụng để tạo ra giọng nói từ văn bản một cách nhân tạo. Việc tối ưu hóa quy trình gồm nhiều bước này rất phức tạp vì mỗi bước trong số này yêu cầu xây dựng và sử dụng một hoặc nhiều mô hình học sâu.
Các mô hình học sâu được áp dụng cho NLU vì khả năng khái quát hóa chính xác trên nhiều ngữ cảnh và ngôn ngữ. Các mô hình học sâu như BERT (Đại diện bộ mã hóa hai chiều từ Transformers), là một giải pháp thay thế cho recurrent neural networks áp dụng kỹ thuật phân tích cú pháp của câu bằng cách tập trung sự chú ý vào các từ có liên quan nhất xuất hiện trước và sau nó. BERT đã cách mạng hóa tiến trình trong NLU bằng cách cung cấp độ chính xác có thể so sánh với cơ sở của con người trên các điểm chuẩn cho câu trả lời câu hỏi (QA), nhận dạng thực thể, nhận dạng ý định, phân tích tình cảm, v.v.
GPU là chìa khóa cho AI đàm thoại
AI đàm thoại yêu cầu một lượng lớn sức mạnh tính toán và cần cung cấp kết quả trong vòng chưa đầy 300 mili giây.
GPU bao gồm hàng trăm core có thể xử lý song song hàng nghìn threads. GPU đã trở thành nền tảng được lựa chọn để đào tạo các mô hình học sâu và thực hiện suy luận vì chúng có thể mang lại hiệu suất cao hơn gấp 10 lần so với các nền tảng chỉ có CPU.
NVIDIA GPU tăng tốc cho các công cụ AI đàm thoại
Việc triển khai dịch vụ với AI đàm thoại có vẻ khó khăn, nhưng NVIDIA có các công cụ giúp quá trình này trở nên dễ dàng hơn, bao gồm một công nghệ mới có tên NVIDIA Riva.
NVIDIA Riva là một framework ứng dụng được GPU tăng tốc cho phép các công ty sử dụng dữ liệu video và giọng nói để xây dựng các dịch vụ AI đàm thoại tiên tiến được tùy chỉnh cho ngành, sản phẩm và khách hàng của riêng họ.
Framework này cung cấp một dãy học sâu từ đầu đến cuối cho AI đàm thoại. Bao gồm các mô hình học sâu hiện đại, chẳng hạn như Megatron BERT của NVIDIA để hiểu ngôn ngữ tự nhiên. Các doanh nghiệp có thể tinh chỉnh thêm các mô hình này trên dữ liệu của họ bằng NVIDIA NeMo , tối ưu hóa cho suy luận bằng NVIDIA TensorRT và triển khai trên đám mây cũng như ở vùng biên bằng biểu đồ Helm có sẵn trên NVIDIA GPU Cloud ( NGC ), danh mục GPU của NVIDIA GPU-optimized software.
Các ứng dụng được xây dựng bằng Riva có thể tận dụng những cải tiến trong GPU NVIDIA A100 Tensor Core mới cho điện toán AI và các tối ưu hóa mới nhất trong NVIDIA TensorRT để suy luận. Điều này cho phép chạy toàn bộ ứng dụng đa phương thức, sử dụng các mô hình giọng nói và tầm nhìn mạnh mẽ nhất, nhanh hơn ngưỡng 300 mili giây cho các tương tác thời gian thực.
Các trường hợp sử dụng RIVA
Các công ty trên toàn thế giới đang sử dụng nền tảng AI đàm thoại của NVIDIA để cải thiện dịch vụ của họ.
Các tác nhân ảo AI của Voca sử dụng NVIDIA để tương tác nhanh hơn, giống con người hơn được sử dụng bởi Toshiba, AT&T và các công ty hàng đầu thế giới khác. Voca sử dụng AI để hiểu toàn bộ ý định của cuộc trò chuyện và lời nói của khách hàng. Điều này giúp các tổng đài viên có thể tự động xác định các âm điệu khác nhau và các đầu mối giọng nói để phân biệt giữa những gì khách hàng nói và ý của khách hàng. Ngoài ra, họ có thể sử dụng các tính năng có khả năng mở rộng được tích hợp trong nền tảng AI của NVIDIA để giảm đáng kể thời gian chờ đợi của khách hàng.
Kensho, trung tâm đổi mới của S&P Global đặt tại Cambridge, Mass. Nơi triển khai các hệ thống phân tích và máy học có thể mở rộng, đã sử dụng AI đàm thoại của NVIDIA để phát triển Scribe, một giải pháp nhận dạng giọng nói cho lĩnh vực tài chính và kinh doanh. Với NVIDIA, Scribe vượt trội so với các giải pháp thương mại khác về các cuộc gọi thu nhập và âm thanh tài chính tương tự về độ chính xác với biên độ lên tới 20 phần trăm.
Square đã tạo ra một trợ lý ảo AI cho phép người bán Square sử dụng AI để tự động xác nhận, hủy hoặc thay đổi cuộc hẹn với khách hàng của họ. Điều này giúp họ tiến hành thu hút khách hàng chiến lược hơn. Với GPU, Square có thể đào tạo các mô hình nhanh hơn gấp 10 lần so với CPU để mang lại các tương tác chính xác hơn, giống con người hơn.
Bài viết liên quan