機器為什么需要視覺呢?視覺是主要的感官。機器要能夠理解人類,提供他們所需的支持,那么它們必須能夠在視覺范疇進行觀察和表現(xiàn)。具體形式可以是一個幫助盲人“看見”和理解周遭世界的小攝像頭,又或者能夠準確區(qū)分流浪貓、在移動的樹枝和竊賊的家庭監(jiān)控系統(tǒng)。
正當電子設(shè)備在人們的日常生活中變得日益重要,我們也發(fā)現(xiàn)越來越多的設(shè)備應用因為沒有足夠強大的視覺功能而失敗,如無人機在空中發(fā)生碰撞,機器人吸塵機吸掉不該吸的東西。
機器視覺是人工智能正在快速發(fā)展的一個分支,旨在賦予機器可媲美人類的視覺。隨著研究人員應用專門的神經(jīng)網(wǎng)絡(luò)來幫助機器識別和理解現(xiàn)實世界的圖像,機器視覺在過去幾年取得了巨大的進步。如今的計算機在視覺識別上能夠做到各種各樣的事情,從識別網(wǎng)絡(luò)上的貓到在諸多的照片中識別特定的面孔。不過,該類技術(shù)還有很長的路要走。
當前,機器視覺在走出數(shù)據(jù)中心,應用于各類用途,從無人機的自動駕駛到食品整理。
基本的圖像分類已經(jīng)簡單多了,但在從復雜的場景中提取要義或者信息,機器則面臨著一系列的新問題。錯視問題便是機器視覺仍長路漫漫的一個很好的例證。
舉例來說,當人看到兩張面對面的臉的輪廓圖像時,他們看到的不僅僅是抽象的形狀。他們的大腦會進行進一步的解讀,讓他們能夠識別圖像的多個部分,看到兩張臉,又或者看到一個花瓶。
但對于機器來說,這樣的圖像是非常難以理解的。基本的分類器分辨不了兩張臉和花瓶,它看到的會是諸如短柄斧、吊鉤、避彈衣甚至吉他的物體。該系統(tǒng)并不能確定那些物體是在該圖像當中,這說明這類圖像的識別對于機器而言極具挑戰(zhàn)性。
另外,正如復雜的圖像,現(xiàn)實世界也十分凌亂。在當中正常航行可不是光開發(fā)算法分析數(shù)據(jù)就能夠?qū)崿F(xiàn)的,它需要對真實場景有清楚的了解,進而能夠相應作出行動。
機器人和無人機面臨著大量這樣的障礙,克服這些挑戰(zhàn)對于參與人工智能革命的人來說便是重中之重。
隨著神經(jīng)網(wǎng)絡(luò)、專門的機器視覺硬件等技術(shù)的持續(xù)普及,機器視覺和人類視覺之間的鴻溝正在快速縮小。不久之后,甚至可能會出現(xiàn)視覺能力更勝人類的機器人,它們能夠執(zhí)行各類錯綜復雜的任務(wù),能夠完全自動化地運作。