Computer Vision: Một sự dịch chuyển sắp diễn ra?

Phải chăng lĩnh vực Computer Vision (Thị giác máy tính) sắp “phát minh lại” chính nó?

Ryad Benosman, giáo sư Nhãn khoa tại Đại học Pittsburgh và là giáo sư trợ giảng tại Viện Người máy CMU, tin rằng đúng như vậy. Là một trong những cha đẻ của công nghệ thị giác dựa trên sự kiện, Benosman kỳ vọng thị giác thần kinh – thị giác máy tính dựa trên các camera hoạt động theo sự kiện – là hướng tiếp theo mà thị giác máy tính sẽ thực hiện.

Ông nói: “Thị giác máy tính đã được phát minh lại rất nhiều lần. Tôi đã thấy nó được sáng tạo lại ít nhất hai lần, từ đầu và từ con số không”.

Benosman trích dẫn sự thay đổi trong những năm 1990 từ xử lý hình ảnh với một chút phép đo quang học sang phương pháp tiếp cận dựa trên hình học, và sau đó là ngày nay với sự thay đổi nhanh chóng đối với học máy. Bất chấp những thay đổi này, công nghệ thị giác máy tính hiện đại vẫn chủ yếu dựa trên cảm biến hình ảnh – camera tạo ra hình ảnh tương tự như những gì mắt người nhìn thấy.

Theo Benosman, cho đến khi mô hình cảm biến hình ảnh không còn hữu ích nữa, nó sẽ kìm hãm sự đổi mới trong các công nghệ thay thế. Hiệu ứng này đã kéo dài do sự phát triển của các bộ xử lý hiệu suất cao như GPU, điều này làm trì hoãn nhu cầu tìm kiếm các giải pháp thay thế.

“Tại sao chúng ta lại sử dụng hình ảnh cho thị giác máy tính? Đó là câu hỏi triệu đô để bắt đầu”, ông nói. “Chúng ta không có lý do gì để sử dụng hình ảnh, đó chỉ là vì quán tính từ lịch sử. Trước cả khi có camera, hình ảnh đã tạo ra tầm ảnh hưởng của nó về sau”.

Camera hình ảnh

Camera hình ảnh đã xuất hiện kể từ khi máy ảnh dạng pinhole (lỗ kim) xuất hiện vào thế kỷ thứ năm trước Công nguyên. Đến những năm 1500, các nghệ sĩ đã chế tạo các thiết bị có kích thước như căn phòng được sử dụng để theo dõi hình ảnh của một người hoặc phong cảnh bên ngoài căn phòng lên tấm phông. Qua nhiều năm, các bức tranh được thay thế bằng phim để ghi lại hình ảnh. Những cải tiến như nhiếp ảnh kỹ thuật số cuối cùng đã giúp máy ảnh dễ dàng trở thành cơ sở cho các kỹ thuật thị giác máy tính hiện đại.

Benosman lập luận, tuy nhiên, các kỹ thuật dựa trên camera hình ảnh cho thị giác máy tính là cực kỳ kém hiệu quả. Trường hợp tương tự là hệ thống phòng thủ của một lâu đài thời trung cổ: các lính canh bố trí xung quanh thành lũy nhìn về mọi hướng để tiếp cận kẻ thù. Một tay trống chơi một nhịp ổn định, và trên mỗi nhịp trống, mọi lính bảo vệ sẽ hét lên những gì họ nhìn thấy. Trong số tất cả những tiếng la hét, làm thế nào dễ dàng nghe thấy một người bảo vệ phát hiện kẻ thù ở bìa rừng xa?

Phần cứng tương đương với nhịp trống của thế kỷ 21 là tín hiệu đồng hồ điện tử và các điểm bảo vệ là các pixel – một loạt dữ liệu khổng lồ được tạo ra và phải được kiểm tra trên mỗi chu kỳ đồng hồ, có nghĩa là có rất nhiều thông tin dư thừa và rất nhiều yêu cầu tính toán không cần thiết.

Bộ công cụ đánh giá của Prophesee cho cảm biến DVS được phát triển với sự hợp tác của Sony. Benosman là đồng sáng lập của Prophesee (Nguồn: Prophesee)

“Mọi người đang đốt đi quá nhiều năng lượng, nó chiếm toàn bộ sức mạnh tính toán của lâu đài cho việc tự vệ”, Benosman nói. Nếu một sự kiện thú vị được phát hiện, được đại diện bởi kẻ thù trong trường hợp tương tự này, “bạn sẽ phải đi xung quanh và thu thập thông tin vô ích, với mọi người la hét khắp nơi, vì vậy băng thông rất lớn … và bây giờ hãy tưởng tượng bạn có một lâu đài phức tạp. Tất cả những người đó phải được lắng nghe”.

Tiến đến với Thị giác thần kinh. Ý tưởng cơ bản được lấy cảm hứng từ cách thức hoạt động của các hệ thống sinh học, phát hiện những thay đổi trong sự chuyển động của cảnh vật hơn là phân tích toàn bộ cảnh một cách liên tục. Tương tự như lâu đài của chúng ta, điều này có nghĩa là yêu cầu lính canh giữ im lặng cho đến khi họ nhìn thấy điều gì đó quan tâm, sau đó hét lên vị trí của họ để phát chuông báo động. Trong phiên bản điện tử, điều này đồng nghĩa với việc có các pixel riêng lẻ quyết định xem chúng có thấy điều gì đó liên quan hay không.

Ông nói: “Các pixel có thể tự quyết định thông tin nào chúng nên gửi, thay vì thu thập thông tin có hệ thống, họ có thể tìm kiếm thông tin có ý nghĩa – các đặc điểm. Đó là điều tạo nên sự khác biệt”.

Cách tiếp cận dựa trên sự kiện này có thể tiết kiệm một lượng lớn điện năng và giảm độ trễ, so với việc thu thập có hệ thống ở một tần suất cố định.

“Bạn muốn thứ gì đó thích ứng hơn, và đó là điều mà sự thay đổi tương đối [trong thị giác dựa trên sự kiện] mang lại cho bạn, một tần suất thu nhận thích ứng”, ông nói. “Khi bạn nhìn vào sự thay đổi biên độ, nếu một thứ gì đó di chuyển thực sự nhanh, chúng tôi sẽ nhận được rất nhiều dạng mẫu. Nếu điều gì đó không thay đổi, bạn sẽ nhận được gần như bằng không, vì vậy bạn đang điều chỉnh tần suất thu được của mình dựa trên tính chuyển động của cảnh vật. Đó là những gì nó mang lại, và là lý do tại sao nó là một thiết kế tốt”.

Benosman bước vào lĩnh vực thị giác thần kinh năm 2000, thuyết phục rằng thị giác máy tính tiên tiến không bao giờ có thể hoạt động vì hình ảnh không phải là cách thích hợp để thực hiện điều đó.

Ông nói: “Sự thay đổi lớn chính là việc chúng ta có thể nhìn thấy mà không có các sắc độ và không có hình ảnh, đó là một quan điểm dị biệt ở thời điểm cuối năm 2000 – hoàn toàn dị biệt”.

Các kỹ thuật mà Benosman đề xuất – cơ sở cho cảm biến dựa trên sự kiện ngày nay – rất khác biệt đến mức các bài báo được trình bày cho tạp chí thị giác máy tính IEEE hàng đầu vào thời điểm đó đã bị từ chối mà không được xem xét lại. Thật vậy, phải đến khi sự phát triển của cảm biến tầm nhìn động (DVS) vào năm 2008, công nghệ này mới bắt đầu có chuyển biến tích cực.

Một số ứng dụng khách hàng của Prophesee cho thấy sự khác biệt giữa đầu ra của camera hình ảnh và cảm biến DVS (Nguồn: Prophesee)

Cảm hứng từ Khoa học thần kinh

Các công nghệ cấu trúc thần kinh là những công nghệ được lấy cảm hứng từ các hệ thống sinh học, bao gồm máy tính tối tân, bộ não và các yếu tố tính toán của nó, các tế bào thần kinh. Vấn đề là không ai hoàn toàn hiểu chính xác cách thức hoạt động của các tế bào thần kinh. Mặc dù chúng ta biết rằng các tế bào thần kinh hoạt động dựa trên các tín hiệu điện đến được gọi là gai, nhưng cho đến tương đối gần đây, các nhà nghiên cứu đã mô tả các tế bào thần kinh là khá cẩu thả, chỉ nghĩ rằng số lượng gai là quan trọng. Giả thuyết này vẫn tồn tại trong nhiều thập kỷ. Nhiều nghiên cứu gần đây đã chứng minh rằng thời gian của những gai này là hoàn toàn quan trọng và rằng cấu trúc của bộ não đang tạo ra sự chậm trễ trong những gai này để mã hóa thông tin.

Các mạng nơ-ron tăng đột biến ngày nay, mô phỏng các tín hiệu tăng đột biến được nhìn thấy trong não, là các phiên bản đơn giản hóa của thực tế – thường là các biểu diễn nhị phân của các điểm đột biến. “Tôi nhận được điểm 1, tôi thức dậy, tôi tính toán, tôi ngủ,” Benosman giải thích. Thực tế phức tạp hơn nhiều. Khi một tăng đột biến đến, tế bào thần kinh bắt đầu tích hợp giá trị của tăng đột biến theo thời gian; cũng có sự rò rỉ từ nơ-ron có nghĩa là kết quả là động. Ngoài ra còn có khoảng 50 loại tế bào thần kinh khác nhau với 50 cấu hình tích hợp khác nhau. Các phiên bản điện tử ngày nay đang thiếu đi con đường tích hợp năng động, sự kết nối giữa các nơ-ron và các trọng lượng và độ trễ khác nhau.

“Vấn đề là để tạo ra một sản phẩm hiệu quả, bạn không thể [bắt chước] tất cả sự phức tạp bởi vì chúng tôi không hiểu nó,” ông nói. “Nếu chúng ta có lý thuyết về não bộ tốt, chúng ta sẽ giải quyết được nó – vấn đề là chúng ta không biết [đủ].”

Ngày nay, Bensoman điều hành một phòng thí nghiệm độc đáo dành riêng để tìm hiểu toán học đằng sau tính toán vỏ não, với mục đích tạo ra các mô hình toán học mới và sao chép chúng thành các thiết bị silicon. Điều này bao gồm việc theo dõi trực tiếp các gai từ các mảnh võng mạc thực.

Hiện tại, Benosman chống lại việc cố gắng sao chép trung thực tế bào thần kinh sinh học, mô tả cách tiếp cận đó là lỗi thời.

Ông nói: “Ý tưởng tái tạo tế bào thần kinh bằng silicon xuất hiện bởi vì mọi người nhìn vào bóng bán dẫn và thấy một chế độ trông giống như một tế bào thần kinh thực sự, vì vậy đã có một số suy nghĩ đằng sau nó. Chúng tôi không có tế bào; chúng tôi có silicon. Bạn cần phải thích ứng với nền máy tính của mình chứ không phải ngược lại… nếu tôi biết mình đang tính toán gì và tôi có silicon, tôi có thể tối ưu hóa phương trình đó và chạy nó với chi phí thấp nhất, công suất thấp nhất, độ trễ thấp nhất. ”

Sức mạnh xử lý

Nhận thức rằng không cần thiết phải tái tạo chính xác các tế bào thần kinh, kết hợp với sự phát triển của camera DVS, là những động lực đằng sau các hệ thống thị giác thần kinh hình ảnh ngày nay. Mặc dù các hệ thống ngày nay đã có mặt trên thị trường, nhưng vẫn còn một chặng đường phải đi trước khi chúng ta có được tầm nhìn hoàn toàn giống con người để sử dụng cho mục đích thương mại.

Các máy ảnh DVS ban đầu có “điểm ảnh lớn, nhiều điểm ảnh”, vì bản thân các thành phần xung quanh diode ảnh đã làm giảm đáng kể hệ số lấp đầy. Trong khi đầu tư vào việc phát triển các máy ảnh này đã thúc đẩy công nghệ, Benosman nói rõ rằng máy ảnh sự kiện ngày nay chỉ đơn giản là sự cải tiến của các thiết bị nghiên cứu ban đầu được phát triển từ năm 2000. Máy ảnh DVS hiện đại của Sony, Samsung và Omnivision có các pixel cực nhỏ, tích hợp công nghệ tiên tiến như xếp chồng 3D và giảm nhiễu. Benosman lo lắng là liệu các loại cảm biến được sử dụng ngày nay có thể được nhân rộng thành công hay không.

“Vấn đề là, một khi bạn tăng số lượng pixel, bạn sẽ nhận được một lượng lớn dữ liệu, bởi vì bạn vẫn đang tiếp tục siêu nhanh,” ông nói. “Bạn có thể vẫn có thể xử lý nó trong thời gian thực, nhưng bạn đang nhận được quá nhiều thay đổi tương đối từ quá nhiều pixel. Điều đó đang giết chết tất cả mọi người ngay bây giờ, bởi vì họ nhìn thấy tiềm năng, nhưng họ không có bộ xử lý phù hợp để xử lý nó ”.

Các bộ xử lý thần kinh đa hình mục đích chung đang bị tụt hậu so với các máy ảnh DVS. Những nỗ lực từ một số công ty lớn nhất trong ngành ( IBM Truenorth , Intel Loihi) vẫn đang được tiến hành. Benosman nói rằng bộ xử lý phù hợp với cảm biến phù hợp sẽ là sự kết hợp tuyệt vời và không thể đánh bại.

“Các cảm biến [DVS ngày nay] cực kỳ nhanh, băng thông siêu thấp và có dải động cao để bạn có thể quan sát trong nhà và ngoài trời”, Benosman nói. “Đó là tương lai. Nó sẽ cất cánh? Chắc chắn rồi!”

“Ai có thể đưa bộ xử lý ra khỏi đó và cung cấp đầy đủ các lớp hệ thống sẽ giành chiến thắng, bởi vì nó sẽ là bất khả chiến bại”, ông nói thêm.

▪ Giải pháp nhận diện khuôn mặt tích hợp vào NAS – QVR Face

____
Bài viết liên quan