當前位置：

今年北京站春運全靠“刷臉”，人臉識別如何降低失誤？

發(fā)布時間：2019-01-22 11:07:41 來源：騰訊科技責任編輯：caobo

喬宇中國科學院深圳先進技術(shù)研究院集成所副所長

以下內(nèi)容為喬宇在中科院SELF講壇演講實錄：

我叫喬宇，來自中國科學院深圳先進技術(shù)研究院。今天我想跟大家分享的是“給機器裝上慧眼，看懂世界”。

我們都有這樣的經(jīng)歷，當我們?nèi)タ匆粋€幾個月的寶寶的時候，寶寶會情不自主地盯著我們，甚至沖我們笑一笑。為什么呢?研究發(fā)現(xiàn)，即使是幾個月大的孩子，都具備識別人臉、判別人臉的能力。

當我們看到美麗的湖光山色時，我們可能情不自禁地感嘆自然的壯美，感覺心曠神怡、心情大好。

再看一張好像沒有趣味的圖片，大家能不能從這張圖片中看出來點什么?我給大家一點提示，圈里面是不是好像有一條狗?事實上，我們每個人都有一種與生俱來的視覺能力，就是通過眼睛去感知周圍的環(huán)境、欣賞美景，去閱讀書籍、理解世界。

眼睛和后面的視覺系統(tǒng)是我們?nèi)祟愖顬閺碗s，也最為重要的器官之一。人類獲得的70%的信息來自于眼睛，我們的眼底有上億個神經(jīng)元的細胞用于感知、進行光電作用，人腦中涉及視覺信息處理的細胞達到數(shù)百億。我研究的目的就是讓計算機像人一樣能夠看懂世界、理解世界。

計算機視覺是人工智能的核心領(lǐng)域之一，也被認為是推動當前社會發(fā)展、經(jīng)濟進步的重要革命性技術(shù)。它的應(yīng)用領(lǐng)域非常廣泛，包括人臉識別、自動駕駛、安防監(jiān)控、工業(yè)檢測、醫(yī)學影像、照片美化等等。

為什么我們會關(guān)注計算機視覺技術(shù)?事實上人類社會現(xiàn)在正在進入視覺信息的大數(shù)據(jù)時代，我們?nèi)粘褂梦⑿牛⑿派厦刻焐蟼鞯膱D片、分享的數(shù)頻達到數(shù)十億次。另外一個很大的視覺信息來源是監(jiān)控攝像頭。據(jù)估計，在我們國家已經(jīng)安裝了超過1.7億個攝像頭，每分每秒都會有大量數(shù)據(jù)的產(chǎn)生。

目前我們的系統(tǒng)已經(jīng)可以實現(xiàn)很好的采集，因為攝像頭已經(jīng)很便宜了，一個監(jiān)控攝像頭幾百塊錢，裝在手機上的千萬像素級的攝像頭，大概只要幾美元。也可以實現(xiàn)很好的存儲，即使用一個手機，我們也可以存儲幾千張甚至上萬張照片。對于傳輸，我們現(xiàn)在用5G網(wǎng)絡(luò)，4G網(wǎng)絡(luò)都可以很好地看實時的視頻，5G網(wǎng)絡(luò)自然可以做到更好的傳輸。

現(xiàn)在技術(shù)最大的瓶頸就在于機器不能夠像人一樣去理解、識別圖像的內(nèi)容，所以很多的視頻網(wǎng)站才需要雇用很多人來過濾一些不合法的視頻。而對于監(jiān)控視頻來講，一旦有案件發(fā)生，警察同志都要日夜兼程地閱覽大量監(jiān)控視頻。

在這個背景下面，利用計算機視覺技術(shù)讓計算機能夠理解圖片、識別視頻就顯得尤為重要。在這個背景下，我們科學院的前副院長譚鐵牛院士提出“圖像視頻、大數(shù)據(jù)是人工智能突破口，是信息產(chǎn)業(yè)的增長點”。

很多人就會問，理解圖片、視頻有什么難的?我們家小孩都可以做得很好，下面我就想通過一個三歲的小孩就可以做好的例子跟大家分享一下，為什么讓計算機理解圖片非常難?

這個任務(wù)就是識別貓，給出一張圖片，我們判斷這張圖片中有沒有貓。我們知道有各種類型的貓，有白貓、灰貓、黑貓。

貓可能站著、趴著、躺著，有些貓要跳，還有各種各樣可愛的動作。

圖片中可能還不止一只貓，這些貓之間可能還有一些遮擋、交互。

很多小朋友會傾向于把這些也歸為貓，那對計算機來講，一張貓的圖片是什么呢?

我們知道計算機是把圖片中每個像素的RGB，也就是紅、綠、藍三個通道的值存儲下來。對計算機來講，一張圖片就是一個巨大的像素的矩陣，每個點的位置是這個點的色彩值。那么我們要解決的核心問題就是要找到一個映射函數(shù)，把一張圖片映射到貓的概念，這個問題的挑戰(zhàn)就在于我們輸入的維度很高，可能上千萬維，里面又包含著色彩的變化、姿態(tài)的變化、光照的變化、貓的數(shù)目的變化等等非常復雜的變化，這些就是我們要解決的挑戰(zhàn)。

最早人們在想怎么教計算機識別貓的時候，覺得應(yīng)該分析一下貓的皮毛應(yīng)該有什么紋理、什么色彩，貓的眼睛是什么顏色，貓的耳朵是什么形狀，貓的胡子多長，把這些總結(jié)成規(guī)則，然后靠這些規(guī)則去判斷圖片中是否含有貓。

但事實上這些是非常困難的。我們剛才看到了，貓的皮毛顏色有非常多的變化，貓的胡子的長度可能可以比較準確地測量，但當圖片拍攝的遠近發(fā)生變化時，圖片中貓的胡子的長度也會發(fā)生很大變化。

后面我們就想，我們是怎么教孩子識別貓的?我們會不會在家里對孩子說，你可記清楚了，胡子這么長的是貓，如果再長兩厘米，它就不是貓了。我想沒有家長會這樣教，其實我們就是給孩子看了很多貓的照片，孩子就熟悉了貓的概念。

后來我們就把這個方法推廣到讓機器去學習貓的概念，這就是機器學習的方法。我們會收集非常大量的關(guān)于一個物體的資料，這里是關(guān)于貓的照片，然后我們把這些貓的照片放到計算機里，用機器學習、統(tǒng)計學習或者是深度學習的模型，讓計算機不斷地分析、理解這些圖片，然后識別貓的概念。

真的有人這么做了，2012年，谷歌很興奮地宣布，他們發(fā)布了一個能夠識別貓的計算機算法。他們從YouTube上收集了1000萬張圖片，然后用了16000個CPU的核，他們讓這16000個核反反復復地看這1000萬張圖像，看了一個星期的時間，最后他們很興奮地宣布，我們的計算機能夠識別貓了。

左邊給出的就是被這個算法判斷為貓的例子，其實仔細看就會發(fā)現(xiàn)里面還是有些錯誤的，右邊是這些圖片的平均照片，確實這個算法識別出的大部分都像貓，也確實是貓的照片。

當然作為一個計算機視覺的研究者，我所要做的絕對不是識別貓這么簡單。我們知道圖像中有各種各樣的物體，有人、車、建筑物，有人造物體、自然界的物體，有動物、植物，這些都是我們識別的對象。

對于計算機視覺來講，我們還要應(yīng)對的一個很大的挑戰(zhàn)，就是這些對象中包括非常復雜的變化，這種變化可能來自于光照、姿態(tài)，也可能來自于其它各種各樣形變的因素。而且圖像、視頻的數(shù)據(jù)量很大，內(nèi)容很豐富，這就要求我們的系統(tǒng)具有非常高的處理效率，這些就構(gòu)成了技術(shù)者研究過程中的挑戰(zhàn)。

我經(jīng)常用這幅圖來比喻我們的任務(wù)，這座山的頂峰是我們的目標，就是要建立和人類匹配，甚至超過人類的超級視覺能力。我的目的就是登上這座山的頂峰，遺憾的是在很長的時間里，比如在2011年，我感覺我只能在山腳到處尋找，離山頂非常之遠，那時候我們只能通過一些方法很局部、很微弱地推動技術(shù)的進步。

當時我跟我的學生講，我們做計算機視覺的研究是非常安全的。當然這個安全可能有一些貶義詞的部分，就是說有可能在我的有生之年，我們這個研究的很多問題都不會得到有效的解決。我們今年提一個百分點，明年再招一個博士生，再提高兩個百分點，就這樣做下去，直到我退休。

這樣想想總是覺得有點落寞，事實上后面情況發(fā)生了很大的變化，一個重大的變化就是以卷積神經(jīng)網(wǎng)絡(luò)為代表的深度學習方法引入到計算機視覺，我們終于找到了一條能夠快速登山的爬山道，所以大家可以看到計算機視覺中的很多技術(shù)取得了日新月異的進步，在人臉識別、物體識別等任務(wù)上，計算機的能力在特定數(shù)據(jù)庫上甚至可以超越人。

爬到這兒的時候，我愈發(fā)地意識到這座山后面的部分可能更難爬。爬山道在哪我們現(xiàn)在也不清楚，但作為一個研究者，我的職責就是從這看不清的云霧中間去找到一條可行的道路來解決這些問題。那么下面我就分享爬山中間的一個工作，人臉識別和人臉檢測。

這項技術(shù)大家應(yīng)該很熟悉，我們現(xiàn)在可以刷臉支付、刷臉解鎖手機，我們通過海關(guān)的時候也會有人臉識別的一些程序判斷是不是你本人。這里面大概可以分成兩個任務(wù)，一個任務(wù)是人臉識別，一個是人臉比對。人臉比對的任務(wù)就是給出兩張照片，判斷是不是同一個人。人臉識別就是給出一張照片，去判斷很多張照片中的哪張照片和這個照片是同一個人的。

很顯然，第一個任務(wù)更容易，1:1，隨便猜正確率也有50%。如果第二個任務(wù)給出的照片是一千張，隨便猜是1/1000。如果是整個上海2000萬人口的照片，那隨便猜的正確率是2000萬分之一。

人臉識別的流程是怎樣的呢?我們會先把照片中人臉的區(qū)域找出來，這個工作叫做人臉檢測，就是發(fā)現(xiàn)人臉。找到人臉之后，我們會通過一些計算機的算法，通過一些計算機的模型，比如深度學習的模型，去發(fā)現(xiàn)這些照片中與人臉相關(guān)的最有鑒別性的特征。比如說我們眼睛的形狀、鼻子的形狀，我們的臉型，臉部器官的組合都會成為有用的特征。

通過計算機的算法提取這些特征之后，我們會把這些特征存起來，數(shù)據(jù)庫中的照片我們也會進行特征的檢測和提取，最后我們把兩個特征進行匹配。比較像的，我們就認為照片中是同一個人，不像的就認為不是同一個人。

這是我們的算法在人臉檢測中所做的效果，我們可以看到現(xiàn)在的算法對于不同的膚色、不同的表情以及人臉姿態(tài)的變化，都有非常強的魯棒性。我們的算法不僅能夠找到人臉，還能同時發(fā)現(xiàn)你的眼睛、鼻子、嘴角的位置。可能有人會問，發(fā)現(xiàn)這個有什么意義嗎?

其實蠻有意義的，我想很多女士都喜歡用美顏相機，其實在美顏相機做的第一件事情就是發(fā)現(xiàn)你的眼睛在什么位置，鼻子在什么位置，它會針對不同區(qū)域采用不同的美化算法。不然的話，我們把美白的方法用在眼睛上，就不好看了。

大家能不能猜一下，這張照片中有多少張人臉?計算機發(fā)現(xiàn)了接近800張人臉，而且這件事情可以做得非常快，只需要不到一秒鐘的時間。把照片送進計算機，它就會把人臉的數(shù)目和圈中人臉位置的框輸出出來。找出人臉之后，我們就要進行人臉識別。

大家認為這兩張照片是不是同一個人呢?回答是或者不是的都有，這其實是同一個人。

這兩張照片像不像同一個人呢?好像是又好像不是，事實上這兩種照片不是同一個人。

那這兩張呢?我看大家覺得不是的比較多，實際上這兩張是同一個人。

我們的人臉確實太多變了。我現(xiàn)在40多歲，十多年前我剛好回國。前段時間我在整理照片，把十多年前的照片整理出來，結(jié)果發(fā)現(xiàn)歲月真是一把殺豬刀，當然對女士除外。

這兩張大家應(yīng)該都知道不是同一個人，但看起來確實蠻像的。

為什么人臉識別具有挑戰(zhàn)性呢?因為對于同一個人，隨著他的年齡、表情、包括妝容的變化，他的相貌都會發(fā)生很大的變化。對于不同的人，地球上有六七十億的人口，即使在上海的2000萬人口中，你也很容易發(fā)現(xiàn)一個和你長的很相像的一個人。這就是人臉識別的挑戰(zhàn)。順便說一下，剛才我給大家看的這些照片，讓計算機去做識別，都沒有任何問題。

除了人自身的變化之外，還有一種情況，是有時候人臉的照片特別模糊，比如說我們照相的時候手抖動了，或者是離的比較遠，往往會有這樣模糊的照片。可能這兩張照片大家頂多只能看出來是女性，看不清內(nèi)容，我們就可以用計算機算法把它變得更清楚一點，就像右邊的這些照片。

現(xiàn)在人臉的識別技術(shù)到底到了一個什么層次呢?我剛才說過，人臉識別有兩個任務(wù)，一個是1:1的比對，一個是1：N的識別。我們先看1:1的比對。1:1的比對往往用在一些門禁和海關(guān)系統(tǒng)。所以我們首先要保證的是，它一定不能讓一個人與照片不符時通關(guān)，比如說我拿著張三的身份證一定是不能通過的。就是說在一個很大的數(shù)據(jù)集上，你的誤識率要非常低，然后再是識別的精度。

2014年的時候，我們可以做到10的4次方的數(shù)據(jù)集，也就是上萬人。慢慢到10的5次方、10的6次方，到我們做這個實驗的時候，已經(jīng)可以保證在千萬級的數(shù)據(jù)集上，達到99%的識別率。這些有什么意義?我講一些應(yīng)用場景來說明。

深圳灣和香港相鄰的地方有一個深圳灣口岸，是中國最大的單個的海關(guān)通關(guān)口岸之一，每天大概有6萬人通過。在2014年的技術(shù)水平下，用這個技術(shù)，大概每三個小時會錯判一次，就是說每三個小時就可能有人用假證件混過去一次。在2015年的技術(shù)水平下，每兩天會錯判一次。到2016年的時候，，可能一個月這個系統(tǒng)才會錯判一次。到2018年，采用我們最新的技術(shù)，大概半年才會錯判一次。

所以大家聽完這次演講，要記住千萬不要帶假證件去闖海關(guān)，因為現(xiàn)在這個系統(tǒng)判錯的幾率已經(jīng)低于買彩票的中率了，與其去辦這樣的事情，不如多去買兩張彩票。

剛才說了，1：N的識別更難，因為需要從N個人員中找出哪些照片是給定的這個人。在2013年，我們可能在數(shù)百人中能識別出正確的給定對象，到2018年能夠達到這個數(shù)千萬人的層次，這背后實際上是技術(shù)快速的發(fā)展、方法快速的進步。

我們也可以體會一下這個技術(shù)的應(yīng)用范圍。2013年的時候，可能就應(yīng)用在一個幾百人的小公司，每天員工打一次卡，可以保證沒有什么錯誤。到2015年，可以做到上萬人，比如上海的陸家嘴街道大概有十幾萬人的戶籍人口，在這個范圍內(nèi)也有比較好的識別率。到2016、2017年的時候，我們已經(jīng)可以處理一個擁有幾百萬人口的比較大的區(qū)。

到2018年，我們最新的技術(shù)到達了千萬級別，我們知道上海大概有2000多萬人口，是中國乃至世界上最大的城市之一，這時候我給計算機一張照片，計算機就能從2000萬人中找出來是誰。可以想象一下，這個任務(wù)對人來講是幾乎沒有可能的，沒有人會認識上海市的2000萬人，更沒有人能宣稱自己可以記住上海市的2000萬張人臉。但我們的計算機系統(tǒng)確實已經(jīng)具備這樣的能力了。

我們的課題組在這里面有很多些原創(chuàng)性的方法在國際上有最頂級的論文發(fā)表，也被大量的引用。我們參加過一些國際競賽，MegaFace是美國華盛頓大學組織一個國際競賽，我們在FGNet跨年齡任務(wù)之上僅次于谷歌，排在第二位。事實上谷歌用了2億的訓練數(shù)據(jù)，我們只有幾百萬。

同樣我們的技術(shù)也跟一些企業(yè)合作，像南京地鐵的大規(guī)模人臉識別，還有一些智能的服務(wù)攝像頭等應(yīng)用。除了人臉識別，我們還做很多事情，包括從視頻中去識別人的行為，在這件事情上，我們的很多技術(shù)也在像商湯科技這樣的大型企業(yè)得到了比較廣泛的應(yīng)用。

我們還有一項技術(shù)是從場景中夠檢測和識別文字，大家現(xiàn)在經(jīng)常去海外，去美國、英國可能還好一點，比如說去俄羅斯或者是韓國，可能我們會看不懂路牌、看不懂菜單，這時候你只要拿手機拍一下，它就會自動把這些文字檢測識別，并翻譯出來。實際上在這項技術(shù)上我們也與達成了華為合作，已經(jīng)應(yīng)用到了華為的下一代智能手機中去。

我們還與醫(yī)院合作，做青光眼的輔助診斷的識別。我們還把這些技術(shù)應(yīng)用到了水下，讓水下的圖像變得更清晰，讓計算機能夠識別水下的浮游生物、魚等對象。我們課題組做了很多成果，如果大家有興趣，可以去我們的主頁看一下。

在過去的幾年里，我們也參加了計算機視覺領(lǐng)域的一些知名的國際競賽，取得了多次第一，為此我們的學生也付出了巨大的努力。我想在這個領(lǐng)域，我們中國確確實實是在世界第一集團，我們和世界最領(lǐng)先的技術(shù)并沒有有明顯的差距。這也是我們中國現(xiàn)在要重視發(fā)展人工智能技術(shù)的一個重要的原因。

標簽：春運人臉識別