Maxine cho phép các nhà phát triển dễ dàng tích hợp các tính năng AI để tạo nên trải nghiệm hội nghị truyền hình hấp dẫn và được cá nhân hóa.
Hội nghị truyền hình (Video Conferencing) đã cho phép nhiều người làm việc hiệu quả từ mọi nơi.
NVIDIA hiện đang nâng cao năng suất của các nhà phát triển ứng dụng hội nghị truyền hình, trung tâm cuộc gọi và phát trực tuyến trong ngành công nghiệp trị giá 10 tỷ đô bằng việc cho phép họ dễ dàng tích hợp AI vào quy trình làm việc của mình.
Bản phát hành mới của Nền tảng nhà phát triển AI Maxine sẽ biến đổi việc tạo ra các ứng dụng hội nghị truyền hình thời gian thực hiện đại với các tính năng cho phép nâng cao tính linh hoạt, mức độ tương tác và hiệu quả của người dùng.
Có sẵn thông qua nền tảng phần mềm NVIDIA AI Enterprise, Maxine cho phép các nhà phát triển khai thác các tính năng mới nhất do AI hỗ trợ – chẳng hạn như chất lượng âm thanh và video nâng cao cũng như các hiệu ứng thực tế tăng cường (AR) – để biến cuộc gọi video hàng ngày của người dùng thành trải nghiệm cộng tác, hấp dẫn.
Mở rộng Hội nghị truyền hình với các tính năng Maxine mới
Nền tảng nhà phát triển AI Maxine cho phép các nhà phát triển dễ dàng truy cập và tích hợp các tính năng được cải tiến bằng AI theo thời gian thực nhằm nâng cao chất lượng tương tác cho người dùng hội nghị truyền hình.
Các tính năng như giảm tiếng ồn, khử nhiễu và nâng cấp video cũng như giọng nói trong phòng thu. cải thiện chất lượng luồng âm thanh và video. Với các khả năng nâng cao như điều chỉnh ánh mắt, chân dung trực tiếp và các tính năng trong tương lai như chiếu sáng video và cloud microservice Maxine 3D, các nhà phát triển có thể nâng cao mức độ tương tác của hội nghị truyền hình và kết nối cá nhân.
Nền tảng này mở rộng tiện ích của các mô hình AI tiên tiến cho các hiệu ứng âm thanh, video và thực tế tăng cường bằng nhiều cách để nhà phát triển cung cấp các tính năng của Maxine với các bộ công cụ phát triển phần mềm (SDK), microservice và thậm chí cả các endpoint giao diện lập trình ứng dụng (API) được phân phối từ hạ tầng cloud của NVIDIA.
Các bản cập nhật tính năng sản xuất Maxine hiện có sẵn bao gồm:
- Eye Contact: Mô hình giao tiếp bằng mắt được cải tiến cung cấp khả năng chuyển hướng ánh nhìn bằng chuyển động mắt tự nhiên để mang lại sự tương tác sâu sắc hơn cho người tham gia cuộc họp.
- Voice Font: Model mới này làm khớp giọng nói của người nói với giọng nói mục tiêu trong khi vẫn giữ nguyên thông tin ngôn ngữ và ngữ điệu (nhịp điệu và âm điệu).
- Background Noise Reduction (BNR) 2.0: Model này cập nhật tính năng giảm tiếng ồn cho hoạt động nghe của con người và mã hóa ngôn ngữ với nỗ lực cụ thể nhằm giảm tỷ lệ lỗi mã hóa từ.
Các tính năng mới có sẵn để truy cập sớm vào mùa xuân này bao gồm:
- Speech Live Portrait: Model này cho phép người dùng điều khiển chân dung của họ bằng lời nói trực tiếp hoặc bất kỳ nguồn âm thanh nào, cho phép người dùng luôn trông đẹp nhất trong cuộc gọi hội nghị.
- Studio Voice: Model này cho phép micrô tai nghe, máy tính xách tay và máy tính để bàn thông thường phát ra âm thanh của micrô phòng thu cao cấp, cho phép người dùng luôn phát ra âm thanh tốt nhất trong cuộc gọi hội nghị.
Chương trình truy cập sớm Maxine chia sẻ các bản dựng tiền sản xuất và phát hành trước của các tính năng sắp ra mắt để nhận phản hồi từ các nhà phát triển về tiện ích và sự cải tiến của các mô hình Maxine. Trong bản phát hành này, chúng tôi yêu cầu các nhà phát triển phản hồi về các tính năng sớm trong quá trình phát triển, bao gồm:
- Maxine 3D: Trước đây được trình bày dưới dạng trình diễn nghiên cứu tại SIGGRAPH 2023, cloud microservice này cung cấp mức độ tương tác mới cho hội nghị truyền hình với công nghệ NeRF thời gian thực nâng video 2D lên 3D.
- Video Relighting: Model mới này sử dụng hình ảnh có dải động cao để chiếu sáng người dùng, cho phép kết hợp liền mạch ánh sáng của người dùng với nhiều hình nền khác nhau.
- API Endpoints: Cung cấp cho nhà phát triển khả năng truy cập linh hoạt các tính năng của Maxine thông qua cơ sở hạ tầng đám mây NVIDIA, giúp việc tích hợp Maxine trở nên dễ dàng hơn.
Câu lạc bộ bóng đá Jugo và Arsenal ghi những bàn thắng quan trọng
Các sự kiện thể thao là trải nghiệm tuyệt vời nhất của con người, gắn kết các đội và người hâm mộ vượt qua biên giới và rào cản ngôn ngữ. Jugo, sử dụng tính năng AI Green Screen của Maxine, cung cấp nền tảng kỹ thuật số cho các sự kiện ảo – cho phép các công ty tạo ra trải nghiệm sống động với Unreal Engine để gắn kết người hâm mộ từ khắp nơi trên thế giới mà không cần dùng đến studio sản xuất đầy đủ.
Arsenal FC, một thương hiệu quyền lực ở giải Ngoại hạng Anh, đang hợp tác với Jugo để cách mạng hóa cách câu lạc bộ bóng đá tương tác với 600 triệu người hâm mộ toàn cầu. Sự hợp tác này mang lại trải nghiệm giải trí thể thao ảo mới để tăng cường sự tham gia của những người ủng hộ trên toàn cầu. Jugo mang sức mạnh của sự tương tác thực tế giữa con người với nhau vào các sự kiện của Arsenal, tạo ra những kết nối ảo thực tế giữa những người ủng hộ và những người hùng thể thao của câu lạc bộ.
Richard Stirk, CEO của Jugo Experience cho biết: “Nền tảng Jugo Experience đang thay đổi thị trường cho các thương hiệu nhằm theo đuổi nhận thức và sự tham gia toàn cầu. Arsenal FC là ví dụ hoàn hảo về việc mở rộng thương hiệu toàn cầu. Tính linh hoạt trong việc tạo ra trải nghiệm thương hiệu phong phú là chìa khóa cho sản phẩm của Jugo và Nền tảng nhà phát triển AI Maxine là khối xây dựng cơ bản của tính linh hoạt này.”
Thiết lập tiêu chuẩn mới về hội nghị truyền hình tăng cường AI
Trong số những khách hàng đầu tiên khai thác bộ tính năng mới nhất trong chương trình truy cập sớm để tạo studio nghe nhìn chuyên nghiệp từ máy ảnh và micrô thông thường có Gemelo, Pexip, Spectacle và VideoRequest.
Paul Jaski, CEO của Gemelo cho biết: “Gemelo đã tham gia thử nghiệm các bản phát hành trước của mô hình Maxine trong nhiều năm nay và chúng tôi đánh giá cao cơ hội đưa ra ý kiến đóng góp sớm về các tính năng của Maxine khi chúng được phát triển”. “Tính năng mới nhất, Speech Live Portrait, sẽ mang đến cho khách hàng của chúng tôi sự linh hoạt cao hơn trong việc tạo tin nhắn video tùy chỉnh, mở ra cánh cửa cho một kỷ nguyên cá nhân hóa mới.”
Ian Mortimer, giám đốc công nghệ của Pexip cho biết: “Pexip hoan nghênh cơ hội thử nghiệm các phiên bản phát triển của các tính năng Maxine và giúp hướng dẫn các mẫu sản phẩm cuối cùng. Khi thử nghiệm phiên bản mới nhất của Maxine BNR, chúng tôi nhận thấy những cải tiến đáng kể về độ rõ và chất lượng giọng nói, đồng thời có kế hoạch tiếp tục tinh chỉnh các tham số thử nghiệm của mình để giúp tối ưu hóa độ chính xác trong quy trình dịch thuật AI.”
Benjamin Portman, chủ tịch của Spectacle cho biết: “NVIDIA Maxine Eye Contact API đã đơn giản hóa đáng kể lộ trình cung cấp khả năng xử lý video hấp dẫn cho người dùng ứng dụng Spectacle của chúng tôi, loại bỏ nhu cầu lo lắng về cơ sở hạ tầng và các hoạt động tích hợp tiêu tốn nhiều tài nguyên”. “Với nó, chúng tôi có thể PoC trong vòng vài ngày, đẩy nhanh tiến độ triển khai ứng dụng sản xuất của chúng tôi.”
Joe Tyler, giám đốc công nghệ của VideoRequest cho biết: “Thử nghiệm ban đầu của chúng tôi về Maxine Studio Voice đã mang lại cái nhìn ấn tượng về những gì hiện có thể thực hiện được với những lời chứng thực video và sản xuất được nâng cao bởi AI”. “Các tính năng Maxine BNR và Eye Contact mới sẽ giúp nâng cao chất lượng video của khách hàng bằng cách vượt qua môi trường ghi hình đầy thách thức của họ.”
Theo NVIDIA
Bài viết liên quan