在蒙特利爾的NeurIPS 2018大會的一篇論文——《帶有屬性控制的內容保留文本生成》中,密歇根大學和Google Brain的數據科學家描述了一種機器學習架構,不僅能夠根據給定樣本生成句子,還能夠在保留原意的前提下,改變原句的情緒、復雜程度、時態甚至是態度。
這個系統可能有一天會用于復述、團隊論斷、機器翻譯和會話系統。它可以補充微軟研究所11月展示的系統,該系統利用復雜的自然語言處理技術來推理弱結構文本中的關系。“在這項工作中,我們解決了修改句子文本屬性的問題。”研究人員寫道。“據我們所知,我們演示了首個能夠在沒有并行數據的情況下,修改給定句子的多個文本屬性的實例。”
該團隊首先解決了情緒控制問題。他們找來了一個餐館評論數據集——Yelp評論數據集的過濾版本,以及大量的IMDB電影評論,這兩個數據集分別有447,000和300,000個句子,他們用來訓練系統。
在培訓完成之后,研究人員使用包含了128,000條餐廳評價和36,000條電影評論的測試數據集,嘗試將原本帶有負面情緒的句子轉換成具有正面情緒的文本,而將帶有正面情緒的句子轉換成帶有負面情緒的文本。
用“雙語評估替換”(BLEU)進行的評估表明,這個人工智能系統能夠勝過兩種領先的文本生成方法。BLEU是一套評估機器翻譯文本的標準方法。此外,它始終能夠生成與輸入的句子相關的、語法正確的句子,在某種程度上,亞馬遜的Mechanical Turk研究參與者認為它的輸出比以前的方法更為真實。
這個系統生成的句子的連貫程度令人驚訝。在一個例子中,“柜臺后面的人不友好”變成了“柜臺上的人非常友好并且樂于助人。”在另一個例子中,模型將“這是這部電影另一個有趣的地方”變成了“這部電影的質量簡直糟得沒救了”。
更令人印象深刻的是,在另一項測試中的研究人員使用該系統同時控制句子的多種屬性,包括情緒、時態、態度和情緒。在用來自Toronto BookCorpus數據集的200萬個文本片段進行培訓之后,該模型能夠將未來時態中的指示性情緒,“約翰將無法在營地中生存”轉換為條件時態中的虛擬語氣,“約翰不能住在營地”。
新聞排行
圖文播報
科普信息網 - 科普類網站
聯系郵箱:85 572 98@qq.com 備案號: 粵ICP備18023326號-39
版權所有:科普信息網 www.www44bkbkcom.cn copyright © 2018 - 2020
科普信息網版權所有 本站點信息未經允許不得復制或鏡像,違者將被追究法律責任!