Khám phá tiềm năng của Computer Vision với NVIDIA

Cho phép các thiết bị của bạn nhận biết và hiểu thế giới xung quanh chúng ta bằng bộ phần mềm chuyên nghiệp, có thể mở rộng quy mô và được thử nghiệm kỹ lưỡng.

Phần mềm NVIDIA hỗ trợ quy trình phát triển cho chuyên ngành Thị giác máy tính (Computer Vision) từ đầu đến cuối – từ phát triển mô hình đến triển khai – dành cho các nhà phát triển cá nhân, giáo dục bậc cao và nghiên cứu, cũng như ứng dụng trong doanh nghiệp. Thị giác máy tính là một lĩnh vực công nghệ cho phép các thiết bị như camera thông minh thu thập, xử lý, phân tích và giải nghĩa hình ảnh, video. Nó có thể được hiểu trên các lĩnh vực dựa trên kiểu loại và kỹ thuật.

Thị giác máy tính truyền thống, còn được gọi là xử lý hình ảnh hoặc Thị giác Máy tính không dựa trên deep learning, thực hiện một số tác vụ cụ thể dựa trên các tập lệnh được “hard-coded”. Chẳng hạn, xử lý hình ảnh có thể được sử dụng để ánh xạ một hình ảnh hoặc khử nhiễu trong một video. Thị giác máy tính dựa trên AI, hay vision AI, dựa trên các thuật toán đã được đào tạo về dữ liệu trực quan để hoàn thành một nhiệm vụ cụ thể.

Ví dụ: hệ thống hỗ trợ người lái trên xe tự hành được thiết kế với các thuật toán CV sử dụng camera và các cảm biến khác để không chỉ hiển thị mà còn nhận biết những gì ở phía trước và phía sau xe nhằm xác định và phân loại thành các khu vực hoặc các điểm quan tâm (points of interest) trong một frame ảnh. Trong trường hợp này, CV dành cho ứng dụng an toàn – giúp người điều khiển phương tiện điều hướng chúng quanh các vật cản trên đường, các phương tiện khác, động vật và con người. Tương tự, người nông dân có thể dựa vào các thiết bị có sự hỗ trợ của CV để tự động xác định cỏ dại và nơi cây trồng đang phát triển tốt trên một cánh đồng lớn nhằm tăng năng suất.

Các tác vụ của CV như nêu trên dựa vào Trí tuệ nhân tạo và cụ thể hơn là Học sâu, một loại Học máy được mô phỏng theo bộ não. Bất kể loại nào, các mô hình CV cho phép các thiết bị thực hiện các tác vụ trong thời gian thực, bắt chước những khả năng về thị giác của con người.

Hầu hết các kỹ thuật đều bắt đầu bằng một mô hình hoặc một thuật toán toán học – được đào tạo với lượng dữ liệu để hoàn thành một nhiệm vụ cụ thể. Một số kỹ thuật phổ biến bao gồm:

Phân loại – Classification

Phân loại liên quan đến việc xác định đối tượng (object) nào trong một hình ảnh hoặc frame video. Các mô hình phân loại thường được đào tạo với một bộ dữ liệu lớn để xác định các đối tượng đơn giản như chó, mèo, ghế hoặc những đối tượng rất cụ thể như loại phương tiện trong một cảnh (scene) đường đi. Chất lượng của đầu ra phân loại phụ thuộc vào dữ liệu đào tạo được sử dụng. Số lượng và sự đa dạng của dữ liệu đào tạo càng nhiều thì mức độ chính xác càng cao.

Phát hiện – Detection

Phát hiện liên quan đến việc định vị và hạn định một đối tượng hoặc nhiều đối tượng trong một frame. Thuật toán đưa ra một khung giới hạn hình chữ nhật xung quanh đối tượng được phát hiện để chỉ ra vị trí của nó trong ảnh. Công cụ phát hiện đối tượng có thể được đào tạo để phát hiện xe hơi, biển báo giao thông, người hoặc các đối tượng quan tâm (objects of interest) khác trong một frame.

Phân đoạn – Segmentation

Phân đoạn liên quan đến việc định vị chính xác các đối tượng hoặc vùng quan tâm (regions of interest) trong một hình ảnh bằng cách gán nhãn cho mọi pixel của nó. Bằng cách này, các pixel có cùng nhãn chia sẻ các đặc điểm giống nhau, chẳng hạn như màu sắc hoặc kết cấu. Các mô hình phân đoạn được sử dụng rất phổ biến trong hình ảnh y khoa để thực hiện các tác vụ như tự động phát hiện khối u trong quá trình chụp cộng hưởng từ (MRI).

Neural Radiance Fields (NeRF)

NeRF liên quan đến việc tạo nội dung ba chiều (3D) từ việc suy luận giữa hai hoặc nhiều đầu vào hình ảnh hai chiều (2D). Nó tạo ra các chế độ xem mới lạ và cảnh 3D dựa trên suy luận từ một tập hợp các hình ảnh. Các mạng NeRF, giống như các Mạng đối nghịch tạo sinh (GANs), có thể được sử dụng để tạo dữ liệu tổng hợp.

 

Quy trình làm việc Thị giác máy tính phụ thuộc nhiều vào nhiệm vụ, mô hình và dữ liệu. Quy trình CV từ đầu đến cuối dựa trên Trí tuệ nhân tạo điển hình, được đơn giản hóa bao gồm 3 giai đoạn chính – Lựa chọn mô hình và dữ liệu, đào tạo và thử nghiệm/đánh giá, triển khai và thực thi.

Hãy xem xét các giai đoạn này bằng cách sử dụng kỹ thuật phát hiện của thị giác máy tính để xác định một chú chó (các kỹ thuật dựa trên phân loại và phân đoạn sẽ tuân theo một quy trình công việc giống hệt nhau).

Finding Fido: Phát triển một quy trình CV phát hiện đối tượng dựa trên AI

Thách thức: Bạn muốn xây dựng phần mềm cho một hệ thống giám sát tự động phát hiện khi chú chó của bạn đến hoặc rời đi qua cửa sau.

Giải pháp ba giai đoạn

Lựa chọn mô hình và dữ liệu

Chọn một mô hình phát hiện đối tượng. Thu thập ảnh về chú chó của bạn (hãy gọi nó là Fido) mà bạn có thể sử dụng để đào tạo và tinh chỉnh mô hình của mình để nhận ra nó.

Đào tạo và thử nghiệm/đánh giá

Đào tạo và thử nghiệm mô hình của bạn bằng cách sử dụng các ảnh khác nhau của Fido để khẳng định tính chính xác của mô hình trong việc phát hiện nó.

Triển khai và thực thi

Triển khai mô hình được đào tạo vào phần cứng để theo dõi và phát hiện vào lần tiếp theo Fido rời khỏi nhà bằng camera đã được cài đặt. Dưới đây là sơ đồ cấp độ cao, tóm tắt giải pháp CV dựa trên AI.

 

NVIDIA kích hoạt quy trình CV từ đầu đến cuối, không chỉ cung cấp các mô hình được đào tạo trước (pretrained models) dựa trên AI mà còn cung cấp các công cụ để đào tạo và thử nghiệm/đánh giá cũng như các framework ứng dụng phần mềm đối với triển khai và thực thi. Tìm hiểu thêm bên dưới về cách NVIDIA kích hoạt mọi giai đoạn phát triển của CV.

Bắt đầu với các mô hình được đào tạo trước cho Thị giác máy tính

Việc tự mình phát triển các mô hình cho các kỹ thuật này sẽ cần rất nhiều dữ liệu đào tạo, thời gian và chuyên môn. Đây là tin tốt – bạn không cần phải là một chuyên gia để bắt đầu. NVIDIA host một số mô hình được đào tạo trước, đã được xây dựng và sẵn sàng sử dụng, để bắt đầu phát triển các giải pháp CV của riêng bạn.

Bắt đầu với NGC, trung tâm phần mềm tăng tốc (GPU) của chúng tôi – để tìm hiểu về các tài nguyên và mô hình Thị giác máy tính, cũng như các trường hợp sử dụng và framework ứng dụng xử lý ngôn ngữ tự nhiên và lời nói dựa trên Học sâu khác.

Khám phá các mô hình được đào tạo trước với NGC calatog

Bắt đầu với dữ liệu hình ảnh tổng hợp và các mô hình được NVIDIA đào tạo trước để giúp cho quá trình phát triển AI Thị giác máy tính toàn diện dễ dàng hơn.

TẠO DỮ LIỆU TỔNG HỢP

NVIDIA Omniverse™ Replicator

Tinh chỉnh các mô hình nhận thức được đào tạo trước với dữ liệu hình ảnh tổng hợp 3D tùy chỉnh, chính xác về mặt vật lý được tạo trong vài phút hoặc vài giờ thay vì vài tháng.

→ Tìm hiểu cách tạo dữ liệu tổng hợp

FRAMEWORK ĐỂ TẠO MÔ HÌNH TUỲ CHỈNH

NVIDIA TAO

Tận dụng sức mạnh của học chuyển đổi (transfer learning) để tinh chỉnh các mô hình được đào tạo trước với dữ liệu của bạn nhằm tạo ra các mô hình AI thị giác máy tính có độ chính xác cao chỉ trong vài giờ thay vì vài tháng.

→ Tìm hiểu về framework mô hình AI

BỘ CÔNG CỤ PHÂN TÍCH STREAMING

NVIDIA DeepStream SDK

Xây dựng phân tích để xử lý đa cảm biến, hiểu video, âm thanh và hình ảnh dựa trên AI.

→ Tìm hiểu cách xây dựng và triển khai vision AI

KHÔNG GIAN THÔNG MINH

NVIDIA Metropolis

NVIDIA Metropolis là một framework ứng dụng đầu cuối, kết hợp dữ liệu trực quan, Điện toán biên và Trí tuệ nhân tạo đa phương thức giúp các nhà phát triển tạo ra các giải pháp AI giúp cải thiện hiệu quả vận hành và độ an toàn cho nhiều quy trình và không gian vật lý.

NVIDIA Metropolis giúp việc phát triển, triển khai và quản lý các ứng dụng và dịch vụ vision AI trên bất kỳ ngành nào bao gồm bán lẻ, sản xuất, thành phố thông minh, nông nghiệp, v.v. trở nên dễ dàng và tiết kiệm chi phí hơn.

→ Tìm hiểu về framework Metropolis

 

Tìm hiểu cách phát triển các ứng dụng bằng việc sử dụng các nền tảng và sản phẩm phần mềm cụ thể cho từng ngành của NVIDIA.

CHĂM SÓC SỨC KHỎE

Clara™

Phát triển các mô hình Thị giác máy tính để nhận dạng cử chỉ, theo dõi nhịp tim, phát hiện khẩu trang và ước tính tư thế cơ thể trong phòng bệnh viện để phát hiện té ngã. Xây dựng, quản lý và triển khai các quy trình công việc trong hình ảnh y khoa, thiết bị y tế với phát trực tuyến video và các bệnh viện thông minh.

→ Tìm hiểu về framework ứng dụng Chăm sóc sức khỏe

Ô TÔ

DRIVE®

Phát triển các giải pháp CV end-to-end (E2E) cho xe tự hành (AV) và buồng lái thông minh (IX). Thu thập và tạo các mô hình DNN đào tạo dữ liệu CV bằng việc sử dụng nền tảng mô phỏng E2E (DRIVE® Sim™).

→ Tìm hiểu về phát triển AV

PHÁT TRỰC TUYẾN VIDEO

Maxine™ SDK

Tạo các ứng dụng tạo nội dung và cộng tác ảo với hiệu ứng video, hiệu ứng âm thanh và thực tế tăng cường (augmented reality).

→ Tìm hiểu cách xây dựng video communications

ĐÀM THOẠI ĐA PHƯƠNG THỨC

Riva

Phát triển các ứng dụng AI đàm thoại đa phương thức bằng cách kết hợp đồng thời các đầu vào hình ảnh, âm thanh và các cảm biến khác.

→ Tìm hiểu cách xây dựng Conversational AI

 

Tìm hiểu về các công nghệ mới và công việc nghiên cứu sáng tạo về Thị giác máy tính tại NVIDIA.

NGHIÊN CỨU

Những cải tiến mới nổi

Tìm hiểu những vấn đề mà các kỹ sư nghiên cứu Thị giác máy tính và nhà khoa học dữ liệu của chúng tôi đang giải quyết. Đọc các ấn phẩm mới nhất của chúng tôi.

→ Tìm hiểu về công việc phát triển CV mới nhất của NVIDIA

ROBOT

NVIDIA Isaac Sim

Phát triển, thử nghiệm, đào tạo và quản lý robot trong các môi trường ảo. Sử dụng Thị giác máy tính để điều khiển, điều hướng và tạo dữ liệu tổng hợp.

→ Xây dựng mô phỏng cho robot

Tìm hiểu cách các thư viện và nền tảng tối ưu hóa của NVIDIA tăng tốc Thị giác máy tính trên những GPU.

THƯ VIỆN MÃ NGUỒN MỞ DÀNH CHO TIỀN VÀ HẬU XỬ LÝ ĐƯỢC TĂNG TỐC BỞI GPU

CV-CUDA

Tăng thông lượng của các quy trình xử lý hình ảnh và thị giác máy tính dựa trên AI với chi phí năng lượng và điện toán đám mây thấp hơn.

→ Phát triển Thị giác máy tính AI ở quy mô đám mây

TRÌNH TĂNG TỐC PIPELINE DỮ LIỆU

Data Loading Library (DALI)

Tải và xử lý dữ liệu âm thanh và Thị giác máy tính bằng GPU. Sử dụng trực tiếp trong các mô hình TensorFlow, PyTorch, MXNet và PaddlePaddle.

→ Tìm hiểu cách tải dữ liệu hiệu quả

THƯ VIỆN XỬ LÝ HÌNH ẢNH VÀ THỊ GIÁC MÁY TÍNH NHÚNG

Vision Programming Interface (VPI)

Triển khai các ứng dụng xử lý hình ảnh và Thị giác máy tính không đồng bộ trong thời gian thực.

→ Tìm hiểu về xử lý CV và IP được tăng tốc

THƯ VIỆN XỬ LÝ HÌNH ẢNH VÀ THỊ GIÁC MÁY TÍNH CHO HÌNH ẢNH ĐA CHIỀU

cuCIM

Thực hiện các hoạt động xử lý hình ảnh và Thị giác máy tính cho dữ liệu n-chiều.

→ Tìm hiểu về xử lý ảnh n-chiều

 

THƯ VIỆN NGHIÊN CỨU DEEP LEARNING 3D

NVIDIA KAOLIN Library

Tạo dữ liệu tổng hợp. Kết xuất và trực quan hóa các bộ dữ liệu đào tạo 3D.

→ Tìm hiểu cách trực quan hóa dữ liệu tổng hợp

THƯ VIỆN GIẢI MÃ HÌNH ẢNH

nvJPEG và nvJPEG2000

Tăng tốc xử lý ảnh JPEG và JPEG2000.

→ Tìm hiểu cách tăng tốc xử lý ảnh JPEG

TẠO DÒNG CHUYỂN ĐỘNG

Optical Flow SDK

Nhận dạng, phân loại và theo dõi các đối tượng cũng như hành động trong luồng video bằng cách tăng cường tính toán vectơ luồng giữa các khung hình bằng GPU.

→ Tìm hiểu cách tối ưu hóa việc tạo chuyển động

THƯ VIỆN XỬ LÝ HÌNH ẢNH VÀ TÍN HIỆU

NVIDIA Performance Primitives (NPP)

Triển khai các chức năng sẵn sàng sử dụng, theo domain, hiệu suất cao để xử lý hình ảnh, video và tín hiệu.

→ Tìm hiểu cách triển khai primitives được tăng tốc

 

TRÌNH TỐI ƯU HÓA SUY LUẬN VÀ RUNTIME

TensorRT™

Cho phép phân phối độ trễ thấp và thông lượng cao cho các ứng dụng suy luận.

→ Tìm hiểu về suy luận AI

MÁY CHỦ SUY LUẬN

NVIDIA Triton™

Triển khai, chạy và thay đổi quy mô các mô hình AI một cách dễ dàng từ mọi framework trên GPU và CPU.

→ Tìm hiểu thêm về triển khai AI

Thế giới của bạn – được hỗ trợ bởi Thị giác máy tính

Bắt đầu với các câu hỏi thường gặp

Thị giác máy tính không chỉ là nghiên cứu. Nó cung cấp các giải pháp thiết thực, trong thế giới thực giúp thay đổi cuộc sống. Chuyên môn sâu của NVIDIA về Trí tuệ nhân tạo và điện toán hiệu năng cao (HPC) mang đến vô số cơ hội để tác động có ý nghĩa đến thế giới.

Những câu trả lời về CV

Tìm hiểu về nền tảng của Thị giác máy tính

Với các bài tập thực hành cho CV trong khóa học kéo dài 8 giờ do Viện Deep Learning cung cấp. Bạn sẽ tìm hiểu cách đào tạo các mô hình Học sâu từ đầu và sử dụng các mô hình được đào tạo trước, thử nghiệm các kiến ​​trúc mô hình khác nhau, khám phá các công cụ và kỹ thuật Học sâu cũng như làm việc với bộ dữ liệu để cải thiện độ chính xác của mô hình. Bạn cũng sẽ đạt được chứng nhận để thể hiện thành tích của mình.

Tìm hiểu Thị giác máy tính

Bạn đang đối mặt với những thách thức nào khi xây dựng các giải pháp Thị giác máy tính?

Chúng tôi muốn nghe về những khó khăn của bạn trong việc phát triển các giải pháp Thị giác máy tính để xem chúng tôi có thể hỗ trợ bạn như thế nào.

Chia sẻ những thách thức về Thị giác máy tính của bạn với NVIDIA

Chúng tôi hợp tác để thành công

Những thách thức toàn cầu cần một cộng đồng. Chúng tôi hỗ trợ bạn giải quyết các thách thức bằng các giải pháp mạnh mẽ để đáp ứng chính xác nhu cầu của bạn.

 

Ping An
Quantiphi logo
Smartcow
T-Mobile
Touchcast logo
Verizon logo

 

   Liên hệ tư vấn giải pháp    
1900 558879     solution@nhattienchung.vn