NVIDIA Riva: Nền tảng nhận dạng giọng nói tự động

NVIDIA Riva là gì?

NVIDIA Riva là bộ công cụ phát triển phần mềm AI dịch thuật và giọng nói đa ngôn ngữ được tăng tốc bằng GPU để triển khai các quy trình AI đàm thoại (conversational AI) theo thời gian thực, có thể tùy biến hoàn toàn – bao gồm nhận dạng giọng nói tự động (automatic speech recognition, ASR), chuyển văn bản sang giọng nói (text-to-speech, TTS) và neural machine translation (NMT) – có thể được triển khai trên đám mây, trong trung tâm dữ liệu, ở biên hoặc trên các thiết bị nhúng. NVIDIA Riva là một phần của nền tảng phần mềm NVIDIA AI Enterprise, giúp chuẩn hóa việc phát triển và triển khai AI cấp độ production.

Xem video demo:

Các lợi ích của NVIDIA Riva

Hỗ trợ đa ngôn ngữ chính xác cao và giọng nói mang tính biểu cảm

Đạt được khả năng phiên dịch có độ chính xác cao cho các bản dịch song ngữ và đa ngôn ngữ như tiếng Anh, tiếng Tây Ban Nha, tiếng Mandarin, tiếng Hindi, tiếng Nga, tiếng Ả Rập, tiếng Nhật, tiếng Hàn, tiếng Đức, tiếng Bồ Đào Nha, tiếng Pháp và tiếng Ý, đồng thời triển khai hai nhân viên ảo nữ và nam chuyên nghiệp có khả năng diễn đạt ngay lập tức giọng nói với tiếng Anh, tiếng Tây Ban Nha, tiếng Đức, tiếng Ý và tiếng Pháp với các mô hình hiện đại được đào tạo trước trên hàng nghìn giờ âm thanh trên siêu máy tính NVIDIA.

Hoàn toàn tùy biến

Tùy biến trên các quy trình ASR cho các ngôn ngữ, giọng, vùng miền, từ vựng và ngữ cảnh khác nhau để có độ chính xác tốt nhất có thể cho ứng dụng của bạn và trên các quy trình TTS cho giọng nói và ngữ điệu bạn muốn.

Triển khai linh hoạt

Cung cấp trải nghiệm nhất quán cho khách hàng của bạn với hàng trăm nghìn luồng đầu vào cùng với hiệu suất suy luận cao hơn so với công nghệ hiện có và triển khai theo lựa chọn của bạn – trong trung tâm dữ liệu, tại chỗ, trên đám mây, ở biên hoặc trong các thiết bị nhúng.

→ Truy cập tài nguyên của Riva dành cho Developer:
https://developer.nvidia.com/riva

Các câu hỏi thường gặp về Riva

NVIDIA Riva là gì?

NVIDIA Riva là bộ công cụ phát triển phần mềm AI dịch thuật và giọng nói đa ngôn ngữ được tăng tốc bằng GPU để xây dựng các quy trình AI đàm thoại, đa ngôn ngữ, có thể tùy chỉnh hoàn toàn theo thời gian thực và có thể triển khai trên đám mây, trung tâm dữ liệu, ở biên hoặc trên các thiết bị nhúng.

Ai sẽ sử dụng Riva?

Riva cung cấp các mô hình nhận dạng giọng nói tự động (ASR), chuyển văn bản thành giọng nói (TTS) và dịch máy theo mạng thần kinh (NMT) dựa trên học sâu cho các nhà phát triển và thực hành AI. ASR, TTS và NMT là các giao diện giọng nói trong các ứng dụng dựa trên giọng nói AI, chẳng hạn như hỗ trợ nhân viên trung tâm cuộc gọi, trợ lý ảo và phiên âm cuộc gọi video.

ASR chuyển đổi giọng nói thành văn bản và thường là bước đầu tiên trong quy trình xử lý giọng nói, do đó độ chính xác của việc phiên âm của nó ảnh hưởng đến tất cả các tác vụ tiếp theo. TTS tạo ra giọng nói giống con người từ văn bản. NMT dịch các từ từ ngôn ngữ này sang ngôn ngữ khác. Riva được sử dụng trong tất cả các ngành – từ viễn thông và tài chính đến y tế, bán lẻ và ô tô – vì mọi công ty đều cần tương tác với khách hàng của mình.

Riva có những dịch vụ và hỗ trợ doanh nghiệp nào?

Riva là phiên bản cao cấp của bộ phần mềm NVIDIA AI Enterprise và bao gồm hỗ trợ cấp doanh nghiệp tiêu chuẩn với thỏa thuận cấp độ dịch vụ (SLA) và mô hình định giá dựa trên số lượng với mức sử dụng không giới hạn và hỗ trợ mức sử dụng theo mùa. Khách hàng của Riva có quyền truy cập ưu tiên vào các mẫu, tính năng mới và các bản phát hành được hỗ trợ với các bản sửa lỗi được ưu tiên.

Lợi ích của Riva là gì?

Những lợi ích bao gồm:

  • ASR thời gian thực đẳng cấp toàn cầu bằng nhiều ngôn ngữ như tiếng Anh, tiếng Tây Ban Nha, tiếng Mandarin, tiếng Hindi, tiếng Nga, tiếng Ả Rập, tiếng Nhật, tiếng Hàn, tiếng Đức, tiếng Bồ Đào Nha, tiếng Pháp và tiếng Ý, với khả năng tùy chỉnh mô hình đầy đủ để đạt được độ chính xác tốt nhất có thể nhằm tự động hóa các hoạt động quan trọng xử lý và mở khóa giá trị kinh doanh không thể đạt được nếu không tùy chỉnh.
  • TTS biểu cảm giống con người, giọng nói tiếng Anh chuyên nghiệp vượt trội (OOTB – nữ và nam.
  • Triển khai linh hoạt với hiệu suất nhất quán tại chỗ, trên các đám mây, ở biên và trên các thiết bị nhúng.

Tôi có thể làm gì với Riva?

NVIDIA Riva cung cấp các kỹ năng ASR và TTS dựa trên deep learning cho những người thực hành và phát triển AI. Với Riva, bạn có thể:

  • Sử dụng kỹ năng AI giọng nói trong các ứng dụng đàm thoại trên tất cả các ngành.
  • Tích hợp các kỹ năng OOTB ASR, TTS và NMT đẳng cấp thế giới, tùy chỉnh các mô hình để có độ chính xác tốt nhất có thể và khả năng biểu đạt giọng nói giống con người, đồng thời tạo ra trải nghiệm giọng nói hấp dẫn như một phần trong ứng dụng của bạn.
  • Tinh chỉnh các mô hình Riva trên dữ liệu theo domain cụ thể của bạn để cung cấp các dịch vụ có độ chính xác cao cho khách hàng.

Chi phí để sử dụng Riva như thế nào?

Để tìm hiểu thêm về việc mua Riva cho các triển khai production, hãy liên hệ với bộ phận bán hàng của NVIDIA hoặc Nhất Tiến Chung. Các container Riva và các model đã được đào tạo trước được cung cấp bản dùng thử miễn phí trong 90 ngày cho các thành viên của chương trình NVIDIA Developer Program.

Tôi có thể mua Riva bằng cách nào?

Hãy liên hệ với các Đối tác của NVIDIA như Nhất Tiến Chung để tìm hiểu về các tùy chọn mua phần mềm Riva. Các ISV nên liên hệ với đại diện bán hàng NVIDIA trong khu vực của họ và các đối tác có thể liên hệ với người quản lý đối tác kinh doanh NVIDIA của họ. Nếu bạn hiện có một dự án AI về giọng nói và muốn bắt đầu thử nghiệm và tạo mẫu nhanh hơn, bạn có thể yêu cầu dùng thử Riva miễn phí trên NVIDIA LaunchPad với bất kỳ lab thực hành nào của Riva.

Hiện đã có lab Riva trên NVIDIA LaunchPad không?

Vâng, hiện có một số lab sử dụng Riva trong NVIDIA Launchpad.

Các tổ chức hiện có dự án AI về giọng nói có thể đăng ký tham gia chương trình miễn phí. Với LaunchPad, bạn không cần phải có hạ tầng hoặc dữ liệu của riêng mình để truy cập các bản dùng thử miễn phí.

Tài nguyên LaunchPad bao gồm siêu máy tính NVIDIA DGX và máy chủ chính thống được NVIDIA chứng nhận chạy các software stack NVIDIA hoàn chỉnh, bao gồm SDK, các khung AI hàng đầu như TensorFlow và NVIDIA Triton Inference Server, cho đến các application framework. NVIDIA LaunchPad có sẵn trên toàn thế giới thông qua các trung tâm dữ liệu Equinix được đặt tại chín địa điểm trên khắp Hoa Kỳ, Châu Âu, Nhật Bản và Singapore.

Nguồn NVIDIA

____
Bài viết liên quan
Góp ý / Liên hệ tác giả