AI Blueprint: Nền tảng phân tích video cho các ứng dụng tìm kiếm và tóm tắt video

Thời đại của công cụ phân tích video bằng AI đã đến.

Video, một đặc trưng của thế giới số hiện đại, chiếm hơn một nửa tổng lưu lượng dữ liệu toàn cầu. Không chỉ thống trị trong lĩnh vực truyền thông, video ngày càng trở nên thiết yếu đối với doanh nghiệp ở nhiều ngành nghề, biến nó thành một trong những nguồn dữ liệu lớn và phổ biến nhất. Tuy nhiên, một thực tế đáng ngạc nhiên là chưa đến 1% lượng video khổng lồ này được phân tích để khai thác thông tin giá trị.

Gần một nửa GDP toàn cầu đến từ các ngành công nghiệp vật lý – từ năng lượng, ô tô đến điện tử. Trong bối cảnh lo ngại về thiếu hụt lao động, nỗ lực đưa sản xuất về nước và nhu cầu tự động hóa ngày càng tăng, các công cụ AI phân tích video (sau đây gọi tắt là tác nhân AI thị giác) sẽ đóng vai trò then chốt hơn bao giờ hết, giúp kết nối thế giới vật lý và kỹ thuật số.

Để đẩy nhanh quá trình phát triển các tác nhân này, NVIDIA hiện đang phát hành rộng rãi AI Blueprint cho tìm kiếm và tóm tắt video (Video Search and Summarization, VSS) , được hỗ trợ bởi nền tảng NVIDIA Metropolis — cung cấp cho các nhà phát triển các công cụ để tạo và triển khai các tác nhân AI có khả năng cao nhằm phân tích khối lượng lớn video được lưu trữ và video thời gian thực.

Một làn sóng các tác nhân AI thị giác và trợ lý ảo tăng cường năng suất, được vận hành bởi Mô hình Ngôn ngữ Thị giác (Visual Language Models – VLM), đang nổi lên. Bằng cách kết hợp sức mạnh của các mô hình thị giác máy tính tiên tiến với khả năng vượt trội của Mô hình Ngôn ngữ Lớn (Large Language Models – LLM), những công cụ AI này cho phép doanh nghiệp dễ dàng xem, tìm kiếm và tóm tắt khối lượng video khổng lồ. Dù là phân tích video theo thời gian thực hay xem lại hàng terabyte dữ liệu đã ghi, chúng đang mở ra những giá trị và cơ hội chưa từng có trong nhiều ngành công nghiệp trọng yếu.

Các nhà sản xuất và kho hàng đang ứng dụng các tác nhân AI để nâng cao an toàn và năng suất cho người lao động. Ví dụ, chúng có thể hỗ trợ điều phối xe nâng và bố trí nhân sự một cách tối ưu. Các thành phố thông minh cũng đang triển khai những giải pháp AI này để giảm tắc nghẽn giao thông và tăng cường an toàn. Danh sách các ứng dụng tiềm năng vẫn không ngừng được mở rộng.

Blueprint: Nền tảng tạo nên các đội hình đa dạng của các AI agent phân tích video

Blueprint VSS được xây dựng trên nền tảng NVIDIA Metropolis, tích hợp sức mạnh của các VLM và LLM như NVIDIA VILA và NVIDIA Llama Nemotron, cùng với các microservices NVIDIA NeMo Retriever và công nghệ Retrieval-Augmented Generation (RAG) – một kỹ thuật cho phép LLM kết nối và sử dụng dữ liệu nội bộ của doanh nghiệp.

Blueprint VSS kết hợp nền tảng phần mềm NVIDIA AI Enterprise , bao gồm các dịch vụ vi mô NVIDIA NIM cho VLM, LLM và các khuôn khổ AI tiên tiến cho RAG. Với Blueprint VSS, người dùng có thể tóm tắt video nhanh hơn 100 lần so với xem theo thời gian thực. Ví dụ, một video dài một giờ có thể được tóm tắt thành văn bản trong vòng chưa đầy một phút.

Blueprint VSS cung cấp nhiều tính năng mạnh mẽ được thiết kế để cung cấp khả năng hiểu video, hiệu suất và khả năng mở rộng mạnh mẽ.

Bản phát hành này giới thiệu hỗ trợ phần cứng mở rộng, bao gồm khả năng triển khai trên một GPU NVIDIA A100 hoặc H100 duy nhất cho khối lượng công việc nhỏ hơn, mang lại sự linh hoạt hơn trong việc phân bổ tài nguyên. Blueprint cũng có thể được triển khai ở rìa trên các nền tảng điện toán NVIDIA RTX 6000 PRO và NVIDIA DGX Spark.

Blueprint VSS có thể xử lý hàng trăm luồng video trực tiếp hoặc các clip bùng nổ cùng lúc. Ngoài khả năng hiểu trực quan, nó còn cung cấp phiên âm âm thanh. Chuyển đổi giọng nói thành văn bản giúp tăng thêm chiều sâu ngữ cảnh trong các tình huống mà âm thanh là quan trọng — chẳng hạn như video đào tạo, bài phát biểu chính hoặc cuộc họp nhóm.

Các công ty dẫn đầu triển khai các tác nhân AI phân tích video để thúc đẩy giá trị kinh doanh

Tất cả từ các nhà sản xuất hàng đầu thế giới đến các thành phố thông minh và các giải đấu thể thao đều đang sử dụng Blueprint VSS để phát triển các tác nhân AI nhằm tối ưu hóa hoạt động.

Pegatron, một công ty sản xuất thiết bị điện tử hàng đầu, sử dụng Blueprint VSS để nghiên cứu quy trình vận hành và đào tạo nhân viên về các phương pháp hay nhất. Công ty cũng đang tích hợp bản thiết kế vào nền tảng PEGAAi của mình để các tổ chức có thể xây dựng các tác nhân AI để chuyển đổi quy trình sản xuất.

Các tác nhân này có thể tiếp nhận và phân tích khối lượng lớn video, cho phép các khả năng tiên tiến như giám sát tự động, phát hiện bất thường, tìm kiếm video và báo cáo sự cố. Visual Analytics Agent của Pegatron có thể được sử dụng để hiểu các quy trình vận hành lắp ráp bảng mạch in và xác định khi nào hành động là đúng hoặc không đúng. Cho đến nay, các tác nhân đã giảm 7% chi phí lao động của Pegatron và 67% tỷ lệ lỗi.

Các nhà sản xuất thiết bị điện tử và bán dẫn hàng đầu của Đài Loan đang xây dựng các tác nhân AI và bản sao kỹ thuật số để tối ưu hóa các ứng dụng lập kế hoạch và vận hành của họ.

Thành phố Cao Hùng, Đài Loan , đang sử dụng ứng dụng smart city AI Vision thống nhất do đối tác Linker Vision phát triển để cải thiện thời gian phản hồi sự cố. Trước đây, các sở ban ngành của thành phố như quản lý chất thải, giao thông và ứng phó khẩn cấp bị cô lập bởi cơ sở hạ tầng bị cô lập — dẫn đến thời gian phản hồi chậm do không thể tiếp cận thông tin quan trọng.

Được hỗ trợ bởi Blueprint VSS, ứng dụng hỗ trợ AI của Linker Vision có các tác nhân kết hợp phân tích video thời gian thực với AI tạo hình để không chỉ phát hiện các yếu tố trực quan mà còn hiểu và tường thuật các sự kiện đô thị phức tạp như lũ lụt hoặc tai nạn giao thông.

Linker Vision hiện đang cung cấp thông tin chi tiết kịp thời cho 12 sở ban ngành của thành phố và đang trên đà mở rộng quy mô từ 30.000 camera thành phố lên hơn 50.000 vào năm 2026. Những thông tin chi tiết này đang cung cấp nhận thức tình huống được cải thiện và ra quyết định dựa trên dữ liệu trên khắp các dịch vụ của thành phố, đồng thời giảm thời gian phản hồi sự cố tới 80%.

National Hockey League đã sử dụng VAST InsightEngine với Blueprint VSS để hợp lý hóa và tăng tốc quy trình làm việc của AI về thị giác. Nó quản lý khối lượng lớn cảnh quay trò chơi.

Với VAST InsightEngine, NHL có thể tìm kiếm qua hàng petabyte video trong vòng chưa đầy một giây, cho phép truy xuất gần như ngay lập tức các điểm nổi bật và khoảnh khắc trong trò chơi. Các quy trình làm việc của tác nhân do AI điều khiển giúp nâng cao hơn nữa việc tạo nội dung bằng cách tự động cắt, gắn thẻ và lắp ráp nội dung video để dễ truy cập và sử dụng.

Trong tương lai, Liên đoàn có khả năng sử dụng lý luận AI theo thời gian thực để cho phép các thông tin chi tiết được tùy chỉnh — chẳng hạn như số liệu thống kê của người chơi, phân tích chiến lược hoặc khuyến nghị tưởng tượng — được tạo ra một cách năng động trong các trò chơi trực tiếp. Tự động hóa đầu cuối này có thể biến đổi cách phương tiện được tạo, quản lý và phân phối, thiết lập một tiêu chuẩn mới cho sản xuất nội dung thể thao do AI điều khiển.

Siemens đang sử dụng Industrial Copilot for Operations để hỗ trợ công nhân nhà máy thực hiện các nhiệm vụ bảo trì thiết bị, xử lý lỗi và tối ưu hóa hiệu suất. Trợ lý AI tạo ra này cung cấp câu trả lời theo thời gian thực cho các lỗi thiết bị bằng cách sử dụng thông tin về dữ liệu hoạt động và tài liệu.

Copilot được xây dựng bằng cách kết hợp các thành phần VSS như VLM, LLM và dịch vụ vi mô NVIDIA NeMo. Copilot công nghiệp đã giúp đưa ra quyết định nhanh chóng và giảm thời gian chết của máy móc. Siemens đã có báo cáo năng suất tăng 30%, với tiềm năng đạt 50%.

Được hỗ trợ bởi Hệ sinh thái đối tác mở rộng Tạo ra các tác nhân AI tinh vi

Các đối tác của NVIDIA đang sử dụng Blueprint VSS để đẩy nhanh quá trình tạo ra các khả năng phân tích video AI cho quy trình làm việc của họ, giảm thời gian phát triển từ nhiều tháng xuống còn vài tuần.

Superb AI, công ty hàng đầu trong lĩnh vực phân tích video thông minh, đã thiết lập một dự án vận hành sân bay tinh vi tại Sân bay Incheon để giảm thời gian chờ đợi của hành khách trong vài tuần. Tại Malaysia, nhà cung cấp giải pháp ITMAX đang xây dựng các tác nhân AI trực quan tiên tiến với Blueprint VSS cho Thành phố Kuala Lumpur để cải thiện quản lý thành phố nói chung và giảm thời gian phản hồi sự cố.

Trong lĩnh vực quảng cáo, PYLER đã tích hợp Blueprint VSS vào các giải pháp an toàn thương hiệu (AiD) và nhắm mục tiêu quảng cáo (AiM) chỉ trong vài tuần. Sử dụng AiD và AiM, Samsung Electronics đã tăng hiệu quả quảng cáo với các vị trí quảng cáo có giá trị cao, phù hợp với thương hiệu và sản phẩm. BYD đã chứng kiến ​​tỷ lệ nhấp chuột vào quảng cáo tăng gấp 4 lần bằng cách nhắm mục tiêu vào nội dung tích cực và có liên quan theo ngữ cảnh, trong khi Hana Financial Group đã vượt qua nhiều mục tiêu chiến dịch thương hiệu.

Fingermark là nhà cung cấp ứng dụng của Eyecue, một nền tảng thị giác máy tính thời gian thực được các nhà hàng dịch vụ nhanh sử dụng. Fingermark đang thêm Blueprint VSS vào Eyecue để biến cảnh quay video thành thông tin chi tiết rõ ràng, có thể hành động về thời gian chờ đợi khi lái xe, tình trạng tắc nghẽn dịch vụ và các sự cố liên quan đến nhân viên ở quy mô lớn.

____
Bài viết liên quan
Góp ý / Liên hệ tác giả