科普信息網

信也科技再攀科研高峰:復雜網絡研究成果登上國際頂級期刊IEEE TKDE

發布時間:2020-10-12 17:34:40 來源:壹點網 責任編輯:caobo

 

近日,金融科技公司信也科技(NYSE:FINV)與浙江大學合作撰寫的論文“Robust Network Enhancement from Flawed Networks”被國際頂級期刊IEEE TKDE正式收錄。

IEEE TKDE(Transaction on Knowledge and Data Engineering)是數據挖掘與知識工程領域最具影響力的刊物,也是被中國計算機學會(CCF) 定位為數據庫、數據挖掘和內容檢索領域的A類國際期刊,屬于值得我國學者去突破的頂級刊物。

據悉,IEEE TKDE主要關注知識發現和數據挖掘、數據庫和數據建模、并行分布式數據管理系統、數據密集型可擴展計算系統結構、搜索引擎以及數據工程應用等領域的最新研究進展和技術。該期刊審稿過程專業嚴謹,在數據挖掘領域享有很高的學術聲譽。信也科技與浙大的這篇合作論文被收錄,這既是信也科技與高校合作成效的直接體現,也是信也科技始終致力科研斬獲的又一碩果。

著眼復雜網絡基礎數據缺陷問題

“網絡”或者“圖”作為一種重要的數據形態,在很多領域中扮演著越來越重要的角色,如社交網絡網絡分析、搜索與推薦、生物化學分子結構分析等。而在金融領域,將用戶、設備、公司、賬戶等作為節點,構建網絡數據,并在此基礎上進行反欺詐的方式也已經帶來了實際的商業和社會價值。信也科技作為金融科技領域的領軍企業具備較高的科技能力,在業務中已實際利用復雜網絡結構,結合機器學習技術,快速、精準識別并鎖定不良中介和欺詐團伙,并將相關成果發表于2019年CIKM的oral論文“Understanding Default Behavior in Online Lending” 。

然而,由于采樣不完全、數據不可得、量化標準有誤差等等原因,現實中收集到的數據一般帶有偏差和噪聲。而復雜網絡數據由于關注節點之間的關聯,更容易受到缺失和噪聲的影響,從而波及下游任務,比如不良中介識別、欺詐團隊識別等。

此次由信也科技與浙江大學楊洋副教授團隊合作完成的論文“Robust Network Enhancement from Flawed Networks”,便旨在解決上述在復雜網絡領域中基礎而重要的問題:大規模網絡數據中的缺陷檢測。這種網絡的缺陷,可能是由帶缺陷的節點或者帶缺陷的邊引起的,此次發表的論文專注于解決帶缺陷的邊引發的問題。期望給整個領域提供一種獨特視角出發的有效缺陷邊檢測算法,提升復雜網絡領域算法的噪聲魯棒性,即系統的健壯性。

首次提出聯合學習網絡缺失邊和噪聲邊

據了解,上述帶缺陷的邊可分為噪聲邊和缺失邊。噪聲邊,即為真實情況下并不存在的邊,比如用通話網絡來構建社交狀況,可能因為誤撥的電話或者一些推銷、外賣電話而加上了一些不反映社交狀況的邊;缺失邊,則是真實情況下存在,數據中卻并沒有觀測到的邊,比如以用戶之間的轉賬來構建關系網絡,一家銀行往往只有用戶在本行轉賬的數據,而觀察不到本來存在的他行轉賬數據。

許多學者已關注到,缺陷邊的問題可能引發下游任務的誤導性結論,并進行了大量的相關研究。而該篇論文的一個重要貢獻是充分考慮了缺失邊與噪聲邊的識別會相互影響(如圖1(c)&(d)),提出了E-Net(Enhancement Network model),一個端到端的基于圖神經網絡的模型,來聯合學習噪聲邊和缺失邊。一方面,噪聲邊被識別出來并去除掉,會有利于缺失邊的預測;另一方面,缺失邊預測的目標函數可以為噪聲邊的識別提供間接的監督。由于在很多實際場景中都不容易獲取一條邊是否是噪聲邊的標簽,這樣的半監督學習框架使得模型對噪聲具有很強的魯棒性。

圖1:在統一框架內識別缺失邊和噪聲邊的示意圖

對于大規模網絡,使用整個網絡去推斷節點之間的關系(比如缺失邊、噪聲邊)會帶來無法承受的計算量。另一方面,使用整個網絡進行訓練,還會導致模型很難外推到新加入的節點和邊上,從而影響應用到實際場景。許多學者采用了子圖提取來解決這個問題,即針對任意一對關注的節點,僅提取它們周圍子圖來推斷該節點對之間的關系。

論文的另一個重要貢獻就是提出了一種RWR(Random Walk with Restart)子圖提取方法(如圖1(b))。相較于傳統的子圖提取方法(如圖1(a)),RWR不再抽取固定的一跳或兩跳鄰居,從而可以(1)抽取的子圖規模不隨節點鄰居數爆炸;(2)既包含局部又包含全局的圖結構。

信也科技AI團隊負責人王春平表示:“此算法最強大的優勢在于不需事先知道噪聲標簽,就能通過缺失邊的預測來對噪聲邊進行半監督學習,從而大大提升算法對噪聲的魯棒性。” 論文中工作的有效性已在多個實驗中得到了驗證。相對于不去噪的模型,對缺失邊的預測F1可以提升大約10%,相對于分步識別噪聲邊和預測缺失邊的模型,F1可以提升2%左右。在進行了去噪和缺失填補兩方面的網絡增強以后,對下游節點分類問題也有很大幫助,F1大概提升4~5%。網絡增強已經成為信也科技復雜網絡算法挖掘的一個重要環節,并已逐步投入實際業務應用,大大提升了算法的魯棒性。

目前,信也科技完備的自研技術已實現了對業務流程的全覆蓋,如人臉識別、多場景OCR、聲紋識別等多模態核身、增信技術,語音識別、意圖識別、對話管理、語音生成等全流程智能對話機器人技術,以及基于復雜網絡的不良中介識別和團伙識別技術等。此外,還形成了智能投放、精準營銷、核身、反欺詐、風控決策流、Automl模型平臺和智能機器人等一系列AI產品。

科技領域累累碩果的背后,是信也科技始終著眼于科技并致力于科研的信念,亦是信也科技來自海內外頂級高校與知名科技企業的相關研究人員以及加州理工大學、加州大學洛杉磯分校、浙江大學等高校的多名擔任科學顧問的教授的辛勞與汗水。此前,信也科技已與浙江大學共建人工智能實驗室,并同中國人民大學建立了戰略伙伴關系,長期保持積極的合作。本次被IEEE TKDE收錄的論文即為校企科研合作的階段性成果之一。

今后,信也科技將繼續保持對科技研發的關注與投入,并進一步加深與高校的科研合作,力求在相關領域進行新嘗試與新突破,努力實現“科技,讓金融更美好”的使命。

(先睹為快:論文將刊登在下一期TKDE,Early Access電子版 )

免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據。

標簽:

上一篇:JOYADELMAR專注抗衰肌膚護理 海洋生物科技成分高效護膚
下一篇:我國網絡視聽用戶規模破9億,短視頻全面推動市場變革

新聞排行