科普信息網(wǎng)

今頭條!合成數(shù)據(jù):有望打破人工智能模型訓(xùn)練瓶頸——2022年度全球十大突破性技術(shù)解讀 (三)

發(fā)布時(shí)間:2022-08-29 05:52:22 來(lái)源:科普時(shí)報(bào) 責(zé)任編輯:caobo

人工智能的好處主要集中在數(shù)據(jù)資源豐富的領(lǐng)域,而“合成數(shù)據(jù)”有望填補(bǔ)這項(xiàng)領(lǐng)域空白。

2021年,尼日利亞數(shù)據(jù)科學(xué)公司的研究人員注意到,旨在訓(xùn)練計(jì)算機(jī)視覺(jué)算法的工程師,可以選用大量以西方服裝為特色的數(shù)據(jù)集,但沒(méi)有非洲服裝的數(shù)據(jù)集。于是,該團(tuán)隊(duì)通過(guò)人工智能算法人為生成由非洲時(shí)尚服裝的圖像組成的數(shù)據(jù),來(lái)解決這一不平衡問(wèn)題。這種通過(guò)算法人為合成出的符合真實(shí)世界情況的數(shù)據(jù),具有與真實(shí)數(shù)據(jù)相似的統(tǒng)計(jì)學(xué)特征,且在數(shù)據(jù)饑渴的機(jī)器學(xué)習(xí)領(lǐng)域的應(yīng)用越來(lái)越普遍。在真實(shí)數(shù)據(jù)稀缺或過(guò)于敏感的領(lǐng)域,如醫(yī)療記錄或個(gè)人財(cái)務(wù)數(shù)據(jù),這些“合成數(shù)據(jù)”可用于訓(xùn)練人工智能模型。

實(shí)際上,合成數(shù)據(jù)的想法并不新鮮,例如,無(wú)人駕駛汽車已經(jīng)在虛擬街道上進(jìn)行了許多訓(xùn)練。2021年,合成數(shù)據(jù)技術(shù)已經(jīng)變得很普遍,許多初創(chuàng)公司和大學(xué)在提供這種服務(wù),例如Datagen和SynthesisAI公司可根據(jù)需要提供數(shù)字人臉,其他公司可為金融和保險(xiǎn)業(yè)提供合成數(shù)據(jù)。


【資料圖】

2021年,麻省理工學(xué)院發(fā)布了名為“SyntheticDataVault”的開源工具,支持便捷生成不同領(lǐng)域、不同模態(tài)的數(shù)據(jù)。《麻省理工科技評(píng)論》(MITTechnologyReview)關(guān)注到了數(shù)據(jù)合成方向的技術(shù)動(dòng)態(tài),并鑒于數(shù)據(jù)對(duì)智能算法的源頭作用,將其列入2022“全球十大突破性技術(shù)”。

專家點(diǎn)評(píng)

程學(xué)旗(中國(guó)科學(xué)院計(jì)算技術(shù)研究所研究員、博士生導(dǎo)師)

陳薇(中國(guó)科學(xué)院計(jì)算技術(shù)研究所研究員,博士生導(dǎo)師)

人工智能技術(shù)已經(jīng)在百姓生活和社會(huì)管理中廣泛應(yīng)用,例如日常購(gòu)物娛樂(lè)和網(wǎng)絡(luò)社交中的智能算法推薦、生活工作中的智能穿戴和智能算法助手,以及幫助規(guī)劃調(diào)度城市高效運(yùn)轉(zhuǎn)的城市大腦。

人工智能模型的效果很大程度上取決于數(shù)據(jù)質(zhì)量,“無(wú)效輸入”往往會(huì)導(dǎo)致“無(wú)效輸出”,為了獲取高質(zhì)量的數(shù)據(jù),需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,包括處理缺失數(shù)據(jù)和異常數(shù)據(jù)等。為了提高模型訓(xùn)練的效果,還需要邀請(qǐng)領(lǐng)域?qū)<胰斯槊恳环輸?shù)據(jù)附上標(biāo)簽,這就大大提高了數(shù)據(jù)的獲取成本并制約了數(shù)據(jù)集的規(guī)模。除去獲取成本高昂以外,特定領(lǐng)域的數(shù)據(jù)集還受限于用戶隱私,極難采集。以醫(yī)學(xué)影像領(lǐng)域?yàn)槔颊叩尼t(yī)學(xué)影像,如X光片被醫(yī)院保管,醫(yī)院無(wú)權(quán)泄露,這樣就可以很好地保障患者的隱私,但同時(shí)增添了該領(lǐng)域研究者獲取數(shù)據(jù)的難度。因此如何高效、廉價(jià)并在不侵犯隱私的情況下獲取大量數(shù)據(jù),是人工智能領(lǐng)域的關(guān)鍵問(wèn)題之一。

為了實(shí)現(xiàn)這一目標(biāo),科研人員提出了“合成數(shù)據(jù)”的方法,即通過(guò)算法人為生成出符合真實(shí)世界情況的數(shù)據(jù)集。合成得到的數(shù)據(jù)集可以用于人工智能模型訓(xùn)練,且具有獲取成本低、質(zhì)量高、避免侵犯隱私等優(yōu)點(diǎn),有望解決目前模型訓(xùn)練中數(shù)據(jù)缺乏這一瓶頸問(wèn)題。

2021年,麻省理工學(xué)院發(fā)布了名為“SyntheticDataVault”的開源工具,支持便捷生成不同領(lǐng)域、不同模態(tài)的數(shù)據(jù)。國(guó)際資本市場(chǎng)也提早預(yù)期到了合成數(shù)據(jù)技術(shù)的潛在價(jià)值,催生出了一批初創(chuàng)公司,成功的商業(yè)模式正在表明合成數(shù)據(jù)這項(xiàng)技術(shù)并非只能用于實(shí)驗(yàn)室場(chǎng)景,在實(shí)際場(chǎng)景中也能夠發(fā)揮重要作用。

合成數(shù)據(jù)領(lǐng)域的技術(shù)發(fā)展趨勢(shì)迅猛,正在被期待對(duì)人工智能產(chǎn)生“再次點(diǎn)火”的作用,我們?nèi)匀恍枰攸c(diǎn)關(guān)注合成數(shù)據(jù)的評(píng)估、合成數(shù)據(jù)存在的“非自然數(shù)據(jù)”、合成數(shù)據(jù)的“隱式隱私”泄露問(wèn)題。

科研人員逐漸意識(shí)到,高質(zhì)量的合成數(shù)據(jù)集不僅可以作為真實(shí)數(shù)據(jù)集的補(bǔ)充,更可作為訓(xùn)練人工智能模型的主要數(shù)據(jù)來(lái)源,但在全面應(yīng)用合成數(shù)據(jù)集之前需要充分研究合成數(shù)據(jù)集與真實(shí)數(shù)據(jù)集的差異,從而避免應(yīng)用合成數(shù)據(jù)集帶來(lái)的偏差。

目前,合成數(shù)據(jù)技術(shù)大多是基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法,由于經(jīng)典統(tǒng)計(jì)學(xué)只關(guān)注數(shù)據(jù)中蘊(yùn)含的相關(guān)性而忽視了因果性,因此有可能生成不合邏輯的數(shù)據(jù),例如合成圖像中可能會(huì)出現(xiàn)具有異常背景的圖像。

(文圖來(lái)自國(guó)家自然科學(xué)基金委員會(huì)《中國(guó)科學(xué)基金》2022年第3期MITTechnologyReview2022年“全球十大突破性技術(shù)”解讀,內(nèi)容有刪節(jié))

標(biāo)簽: 人工智能 全球十大

上一篇:
下一篇:

新聞排行