CVPR 2019滿分論文現身!
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation
這篇論文,來自加州大學圣巴巴拉分校(UCSB)和微軟研究院,題為。
在CVPR 2019評審過程中,從5165篇投稿論文中殺出重圍,得到3個Strong Accept,得分排名第一,被確定為口頭報告論文。
王威廉
UCSB計算機科學系助理教授在微博上透露了這一消息,論文的第一作者是其NLP組內同學。
有人評論稱,最佳論文指日可待。
論文中,基于強化學習,提出一種使用自然語言指揮智能體行動的新方法,在基準數據集上評估,比現有最好的方法性能顯著提高了10%。
引入了模仿學習后,極大地提升了智能體在不可見環境中的性能表現。
這一研究成果,如果用于現實世界中,將能夠進一步提高家庭機器人以及個人虛擬助理的性能,只要你認識路,機器人就能根據你的描述,找到正確的路。行動會更加高效。
跨學科的攻堅戰
視覺語言導航(VLN)
要理解大牛論文的高明之處,這還得先從這個任務講起。
復雜得多
在現實世界環境中,用自然語言為智能體指路,就可以理解為視覺語言導航。定義確實不難理解,但實際運行過程中,操作就了:
語言語義
既要求智能體對有深刻了解,還得對問題信手拈來,最重要的是還要將兩者結合在一起解決現實世界的任務,這是一場橫跨NLP和CV雙學科的攻堅戰。
而現實世界的具體任務總是略顯艱難,下圖顯示的就是一個VLN任務。
在這個任務中,AI接收到的是“向右走,走向廚房,之后左轉,經過一張桌子后進入走廊”等一系列自然語言指令,它看到的是一部分空間中的場景,但需要分析語言中對應的物體即動作,還要腦補出整張空間圖。
VLN任務案例:圖中包含語言指令,局部視覺場景和俯視視角的整體行進軌跡
難就難在了這些地方,以往的研究中,研究人員發現了三大棘手的挑戰:
一是,將視覺圖像與自然語言描述對應的場景對應結合本身就不容易。
二是,整個任務的反饋機制相當粗糙,只有最后到達了目的地才會提示任務完成,智能體是否是按照指令去做的難以判斷。
三是,由于智能體所在的環境差別很大,VLN任務難以泛化。
總而言之,解決VLN任務不僅需要具備CV與NLP兩個領域的知識,而且整個過程可能反饋寥寥,模型對新鮮樣本的適應能力又差,可謂困難重重,無從下手……
但難不倒大神。
基本原理
怎樣讓智能體聽著人類的語言,在迷宮一樣的空間里找到正確的方向?
強化跨模態匹配
這篇滿分論文將強化學習(RL)和模仿學習(IL)知識結合,提出了新型(Reinforced Cross-Modal Matching,)模型,通過強化學習方法聯系看得到的局部和看不見的全局場景。
在RCM模型中,推理導航器(Reasoning Navigator,下圖中綠色框)是一個中心角色。通過學習文本指令和局部視覺圖像中跨模態場景,讓智能體推斷潛在指令,明白到底應該向哪看。
循環重建獎勵
在全局場景中,研究人員還設置了Matching Critic(上圖中紫色框)來評估從原始指令中重建場景執行情況,并且設置了。
對于局部場景來說,這種循環重建獎勵就是一種內部獎勵信號,幫助智能體理解語言輸入,并且懲罰不符合語言指令的錯誤軌跡。
最優線路
解決了的問題后,智能體少走了不少彎路,但研究人員的改造還在繼續。
自監督模仿學習
為了讓智能體在雜七雜八的現實物體中專注于有用的場景,研究人員還提出了一種(Self-Supervised Imitation Learning,)的新方法,幫助智能體探索未知場景中沒有標注的數據。
SIL架構
SIL方法就是讓智能體學會利用走過的老路中獲取的經驗。
簡單來說,在這個框架中,導航器(Navigator)執行多種rollout,將其中評估出的比較好的軌跡存儲在緩沖區,方便導航器在后面的路徑中模仿。
這樣,導航器在行進中就能逐步接近最好的路徑,規劃出最佳決策。
測試結果
論文中,使用R2R(Room to Room)數據集評估模型性能。這個數據集中,共有7189條路徑,21567條人工注釋指令,平均長度29個單詞。
在評估VLN性能時,主要有5個指標,分別是路徑長度(PL)、導航誤差(NE)、Oracle成功率(OSR)、成功率(SR )和由反向路徑長度加權的成功率(SPL)。
在這些指標中,SPL兼顧了有效性和效率,被認為是評估導航性能的主要標準,其他的指標通常被作為是輔助指標。
評估結果顯示,RCM模型顯著優于當前最優結果(SOTA),尤其在SPL指標上。
此外,使用SIL進行模仿學習之后,學習效率也得到了大幅度提升,可見和不可見環境之間的成功率差距從原來的30.7%降低到11.7 % 。
出自何人之手?
這篇論文的作者,一共來自3個單位。分別是UCSB、微軟雷蒙德研究院和杜克大學。
論文第一作者王鑫,2015年本科畢業于浙江大學,正在UCSB攻讀博士學位,研究方向為自然語言處理、計算機視覺和機器學習。
2017年至今,有7篇一作論文被人工智能領域頂級會議收錄,其中有3篇是口頭報告論文。
在2019年頂級會議上,也開始做一些審稿工作:AAAI 2019 自然語言處理領域的Session Chair;ICCV 2019, CVPR 2019的審稿人。
不只是在學術界,王鑫在業界也開始嶄露頭角。
2016年夏季和2017年夏季在Adobe Research實習,參與眾多項目。
其中關于“刪除視頻中不需要的對象”研究,登上了Adobe 2017年的MAX Sneak大會,并在2018年的MAX進行了主題演講。
另一項關于實時進行高分辨率風格遷移的研究,已經應用到了舊金山de Young博物館,并向Adobe CEO Shantanu Narayen面對面展示產品原型。
2018年夏季,在微軟雷蒙德AI研究院實習,2019年夏季,將會前往位于山景城的谷歌AI進行實習。
其他作者
兩位來自UCSB的作者,分別是Yuan-Fang Wang和William Yang Wang(王威廉),是王鑫在UCSB的導師。
有四位作者來自于微軟,分別是Lei Zhang、Jianfeng Gao、Asli Celikyilmaz和Qiuyuan Huang,是他在2018年夏季于微軟實習時的導師。
還有一位來自杜克大學,名為Dinghan Shen,在2018年夏季與王鑫一同在微軟實習。
傳送門
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation
https://arxiv.org/abs/1811.10092
歷屆CVPR優秀論文
CVPR,作為計算機視覺領域頂級學術會議,歷屆優秀論文可以說是學術研究風向標。
今年這篇關于視覺語言導航任務的論文的得到評審青睞,被滿分接受。足以反映出當前計算機視覺方向與自然語言處理方向的合作正在受到歡迎。
Taskonomy: Disentangling Task Transfer Learning
2018年獲得最佳論文的是,來自斯坦福大學和加州大學伯克利分校。
這篇論文研究的是各種計算機視覺任務在遷移學習中的依存關系,提出了一個感知任務遷移學習的計算分類地圖(computational taxonomic map),能夠根據各種任務的相關性,來決定遷移學習方案。
對于一組10種任務,他們的模型能在保持性能幾乎不變的情況下,將對標注數據的需求降低2/3。
傳送門:
Taskonomy: Disentangling Task Transfer Learning
https://arxiv.org/abs/1804.08328
2017年,有兩篇最佳論文。
Densely Connected Convolutional Networks
一篇是,作者來自清華大學、康奈爾大學和Facebook等。
提出了一個叫做DenseNet的模型,讓CNN中的每一層都以前饋的方式和所有其他層相連。
這個模型,有多方面的優點,不僅減輕了梯度消失問題、加強了特征傳播,還能鼓勵特征復用、減少參數數量。
傳送門:
Densely Connected Convolutional Networks
https://arxiv.org/abs/1608.06993
Learning from Simulated and Unsupervised Images through Adversarial Training
另一篇是,來自蘋果。
提出了模擬+無監督(S+U)學習模型,通過非標注的真實數據來學習一個模型,以增強模擬器輸出的真實性,同時保留模擬器中的標注信息。
這種方法能夠生成高真實度的圖像,在沒有任何真是標注數據的情況下,在MPIIGaze數據集上獲得了最高水平的結果。
傳送門:
Learning from Simulated and Unsupervised Images through Adversarial Training
https://arxiv.org/abs/1612.07828
最后,CVPR 2019 將于6月16日-6月20日于洛杉磯長灘市舉辦,王鑫同學的這篇滿分論文,能否獲得最佳論文?屆時將會揭曉。
標簽:
新聞排行
圖文播報
科普信息網 - 科普類網站
聯系郵箱:85 572 98@qq.com 備案號: 粵ICP備18023326號-39
版權所有:科普信息網 www.www44bkbkcom.cn copyright © 2018 - 2020
科普信息網版權所有 本站點信息未經允許不得復制或鏡像,違者將被追究法律責任!