Cải tiến giao tiếp thời gian thực với NVIDIA Maxine

Như chúng ta thấy, mọi người đều muốn người khác nghe tiếng của mình một cách rõ ràng. Đặc biệt là trong các cuộc gọi video hoặc phát trực tiếp từ văn phòng ngay tại nhà của họ. Khi âm thanh rõ ràng, không bị tiếng vọng và ảnh hưởng bởi tiếng ồn xung quanh như tiếng chó sủa, xe cộ… đó sẽ là chìa khóa để có trải nghiệm cộng tác trực tuyến tốt nhất.

Tại GTC22, NVIDIA đã ra mắt Maxine, là bản phát hành mới nhất mang lại hiệu ứng âm thanh hiện đại cho hàng triệu người, cung cấp bộ công cụ phát triển phần mềm hỗ trợ AI, tăng tốc GPU để giúp các nhà phát triển xây dựng các hiệu ứng âm thanh và video có thể mở rộng, độ trễ thấp để cải thiện chất lượng cuộc gọi và trải nghiệm người dùng.

NVIDIA  tiết lộ Maxine đang được bổ sung tính năng khử tiếng vọng âm thanh và bộ khuếch đại dựa trên AI để có chất lượng âm thanh tốt hơn.

Acoustic Echo Cancellation (loại bỏ tiếng vọng âm thanh) trong thời gian thực, duy trì chất lượng giọng nói ngay cả khi nói chuyện với một nhóm hay cả văn phòng. Với công nghệ dựa trên AI, Maxine đạt được khả năng loại bỏ tiếng vang hiệu quả hơn so với những gì đạt được thông qua các thuật toán xử lý tín hiệu kỹ thuật số truyền thống.

Audio Super Resolution (âm thanh siêu phân giải) cải thiện chất lượng của tín hiệu âm thanh băng thông thấp bằng cách khôi phục năng lượng bị mất ở các dải tần số cao hơn bằng các kỹ thuật dựa trên AI. Maxine Audio Super Resolution hỗ trợ lấy mẫu âm thanh từ 8 kHz (băng hẹp) lên 16 kHz (băng rộng), từ 16 kHz đến 48 kHz (băng siêu rộng) và từ 8 kHz lên 48 kHz. Tốc độ lấy mẫu thấp hơn, chẳng hạn như 8 kHz thường dẫn đến giọng nói bị bóp nghẹt và nhấn mạnh các yếu tố tạo ra như âm thanh và làm cho giọng nói khó hiểu.

Các studio phim và truyền hình hiện đại thường sử dụng tốc độ lấy mẫu 48 kHz (hoặc cao hơn) để ghi âm thanh, nhằm duy trì độ trung thực của tín hiệu gốc và duy trì độ rõ ràng. Âm thanh Siêu phân giải có thể giúp khôi phục độ trung thực của các bản ghi âm cũ, thu được từ băng từ hoặc phương tiện băng thông thấp khác.

Cầu nối khoảng cách âm thanh 

Hầu hết các phương tiện viễn thông hiện đại đều sử dụng âm thanh băng rộng hoặc siêu rộng. Vì NVIDIA Audio Super Resolution có thể lấy mẫu và khôi phục âm thanh băng hẹp trong thời gian thực, nên công nghệ này có thể được sử dụng một cách hiệu quả để thu hẹp khoảng cách chất lượng giữa đường dây điện thoại dây đồng truyền thống và hệ thống truyền thông băng rộng dựa trên VoIP hiện đại.

Giao tiếp thời gian thực – cho dù là cuộc gọi hội nghị, trung tâm cuộc gọi hay phát trực tiếp… đang có một bước tiến lớn với Maxine.

Kể từ khi phát hành lần đầu, Maxine đã được nhiều nhà cung cấp hàng đầu thế giới chấp nhận cho truyền thông video, tạo nội dung và phát trực tiếp.

Thị trường hội nghị truyền hình trên toàn thế giới dự kiến ​​sẽ tăng lên gần 13 tỷ đô la vào năm 2028, tăng từ khoảng 6,3 tỷ đô la vào năm 2021, theo Fortune Business Insights.

WFH: Một phương thức của cuộc sống mới 

Việc chuyển sang môi trường làm việc tại nhà, hay còn gọi là WFH, đã trở thành một tiêu chuẩn mới ở các công ty và các tổ chức đang thích ứng với những kỳ vọng mới.

Công ty phân tích Gartner ước tính rằng chỉ một phần tư các cuộc họp dành cho các doanh nghiệp sẽ diễn ra trực tiếp vào năm 2024, giảm so với mức 60% trước đại dịch.

Cộng tác ảo ở Hoa Kỳ đã đóng một vai trò quan trọng vì mọi người đã trải qua các vị trí công việc dạng kết hợp và từ xa trong hai năm qua trong bối cảnh đại dịch.

Nhưng khi các tổ chức cố gắng duy trì văn hóa công ty và trải nghiệm tại nơi làm việc, một nhu cầu phát sinh là khả năng tương tác trên phương tiện truyền thông với chất lượng cao hơn.

Giải quyết vấn đề của “bữa tiệc cocktail”

Nhưng đôi khi công việc và cuộc sống gia đình lại đụng chạm nhau. Do đó, các cuộc họp thường chứa đầy tiếng ồn xung quanh, từ trẻ em, công trình xây dựng bên ngoài hoặc tiếng còi xe khẩn cấp, gây ra sự gián đoạn ngắn trong luồng cuộc gọi hội nghị.

Maxine giúp giải quyết một vấn đề âm thanh lâu đời được gọi là “vấn đề của bữa tiệc cocktail”. Với AI, nó có thể lọc ra những tiếng ồn xung quanh không mong muốn, cho phép người dùng nghe rõ hơn, cho dù họ đang ở văn phòng tại nhà hay trên đường.

Nền tảng tăng tốc GPU Maxine cung cấp một pipeline học sâu từ đầu đến cuối tích hợp với các mô hình hiện đại có thể tùy chỉnh, cho phép các tính năng chất lượng cao với micrô và camera tiêu chuẩn.

Âm thanh tốt nhất như chính bản thân bạn 

Ngoài việc bị ảnh hưởng bởi tiếng ồn xung quanh, chất lượng âm thanh trong các hoạt động ảo đôi khi có thể nghe bị hụt âm sắc, thiếu các tần số trung bình và thấp hoặc thậm chí hầu như không nghe được.

Maxine cho phép khuếch đại âm thanh trong thời gian thực để giọng nói nghe đầy đủ hơn, sâu hơn và dễ nghe hơn.

Logitech: Âm thanh tốt hơn cho tai nghe và micro Blue Yeti

Logitech, nhà sản xuất thiết bị ngoại vi hàng đầu, đang triển khai Maxine để tương tác tốt hơn với các tai nghe và micrô phổ biến của hãng.

Khai thác vào thư viện AI, Logitech đã tích hợp Maxine trực tiếp bên trong trình điều khiển âm thanh G Hub để tăng cường giao tiếp với các thiết bị của mình mà không cần phần mềm bổ sung. Maxine tận dụng Tensor Core mạnh mẽ trong GPU NVIDIA RTX để người tiêu dùng có thể tận hưởng khả năng xử lý tín hiệu micro theo thời gian thực.

Logitech hiện đang sử dụng tính năng chống nhiễu hiện đại của Maxine trong phần mềm G Hub của mình. Điều đó đã cho phép nó loại bỏ tiếng vọng và tiếng ồn xung quanh – chẳng hạn như tiếng quạt, cũng như các cú nhấp chuột và bàn phím – có thể làm mất tập trung vào các hội nghị truyền hình hoặc các phiên phát trực tiếp.

“NVIDIA Maxine giúp game thủ dọn sạch tín hiệu micro của họ và loại bỏ tiếng ồn không mong muốn chỉ bằng một cú nhấp chuột một cách nhanh chóng và dễ dàng.” Ujesh Desai, Giám đốc điều hành của Logitech. cho biết “Bạn thậm chí có thể sử dụng G HUB để kiểm tra tín hiệu micrô của mình để đảm bảo rằng bạn đã cài đặt Maxine của mình.”

Tencent Cloud thúc đẩy những nhà sáng tạo nội dung

Tencent Cloud đang trợ giúp các nhà sáng tạo nội dung trong quá trình sản xuất của họ bằng cách cung cấp công nghệ từ NVIDIA Maxine giúp thêm hình nền sáng tạo một cách nhanh chóng và dễ dàng.

Tính năng AI Green Screen của NVIDIA Maxine cho phép người dùng tạo ra sự hiện diện sâu sắc hơn với khả năng tách tiền cảnh và hậu cảnh chất lượng cao – mà không cần đến “màn xanh” truyền thống. Sau khi nền thực được tách ra, nó có thể dễ dàng được thay thế bằng nền ảo hoặc làm mờ để tạo hiệu ứng độ sâu trường ảnh. Tencent Cloud đang cung cấp khả năng mới này như một gói SaaS dành cho người tạo nội dung.

Công nghệ Màn hình xanh AI của NVIDIA Maxine giúp người sáng tạo nội dung sản xuất bằng cách cho phép trải nghiệm chất lượng cao sống động hơn mà không cần thiết bị và ánh sáng chuyên dụng ”, Giám đốc Trung tâm sản phẩm, Vulture Li tại nền tảng âm thanh và video Tencent Cloud cho biết.

Trải nghiệm ảo tốt hơn

NVIDIA Maxine cung cấp các tính năng âm thanh, video và thực tế tăng cường AI theo thời gian thực hiện đại có thể được tích hợp vào các đường ống học sâu từ đầu đến cuối có thể tùy chỉnh.

Các SDK được hỗ trợ bởi AI từ Maxine giúp các nhà phát triển tạo các ứng dụng bao gồm các tính năng làm giảm âm thanh và hình ảnh, độ phân giải siêu cao, chỉnh sửa ánh nhìn, ước tính tư thế cơ thể 3D và các tính năng dịch.

Maxine cũng cho phép dịch giọng nói thành văn bản trong thời gian thực cho một số ngôn ngữ ngày càng tăng. Tại GTC, NVIDIA đã trình diễn Maxine dịch từ tiếng Anh, Pháp, Đức và Tây Ban Nha.

Những hiệu ứng này sẽ cho phép hàng triệu người thưởng thức video phát trực tiếp chất lượng cao và hấp dẫn trên mọi thiết bị.

____
Bài viết liên quan
Góp ý / Liên hệ tác giả