科普信息網

漢語語音相似性編碼的研究

發布時間:2018-12-11 10:45:06 來源:雷鋒網 責任編輯:caobo

在單詞和短語之間進行語音區分,如區分「I'm hear」和「I'm here」或區分「I can't so but tons」和「I can't sew buttons」,這樣的事情每個人都遇到,尤其是遇到自動更正的短信、社交媒體上的帖子之類的時候。盡管乍看之下,語音相似性似乎只能對可聽單詞進行量化,但這個問題常常出現在純文本空間中。

如何對語音相似的漢語拼音進行研究呢?IBM 研究院的研究人員們發展了一種學習漢語 n 維語音編碼的方法,并可以推廣到許多其他不容易適應英語語音模式的語言中。雷鋒網 AI 科技評論編譯。

語音相似詞對

用 AI 的方法分析和理解文本需要干凈的輸入數據,而這又意味著需要花費相當的精力對原始數據做預處理。不正確的同音詞和同義詞,無論是無意拼錯還是在玩笑中使用,都必須像其他形式的拼寫或語法錯誤一樣進行糾正。在上面的例子中準確地將「here」和「so」這兩個單詞轉換為和它們語音上相似的正確對應的單詞需要一種單詞對之間語音相似性的魯棒的表示。

大多數語音相似性算法是由英語的使用場景驅動的,并設計用于印歐語系。然而,許多語言,如漢語,有不同的語音結構。漢語的官方羅馬化系統拼音,用單音節來表示漢字的語音。拼音音節包括:(可選的)聲母(如 「b」、「zh」、「x」)、韻母(如「a」、「ou」、「wai」或「yuan」)和音調(有五個)。將這些語音映射到英語音素會導致相當不準確的表達,并且使用印歐語音相似性算法進一步加劇了這一問題。例如,兩個著名的算法,Soundex 和 Double Metaphone,會在忽略元音的同時索引輔音(并且沒有音調的概念)。

拼音

由于一個拼音音節平均代表七個不同的漢字,所以同音字在數量上甚至大于英語。同時,無論是在使用語音到文本時還是在直接鍵入時,拼音用于文本創建在移動和聊天應用程序中非常普遍,因為輸入拼音音節并選擇預期的字符更為實用。因此,基于語音的輸入錯誤非常常見,凸顯了用非常精確的語音相似性算法來糾正錯誤的需求。

漢語語音相似性編碼的研究

可視化表示拼音縮寫的語音編碼

受這個使用場景的啟發,IBM 研究院的研究人員們發展了一種學習漢語 n 維語音編碼的方法,這個使用場景還可以推廣到許多其他不容易適應英語語音模式的語言。拼音的一大特點是韻母、聲母和聲調三個因素應獨立考慮和比較。例如,拼音對 {「xie2」、「Xue2」} 和 {「lie2」、「lue2」} 中即便聲母不同,韻母「ie」和「ue」以及聲調仍然可以是相同的。因此,一對拼音音節的相似性是聲母、韻母和聲調之間相似性的集合。

然而,人為地將編碼空間限制到低維 (例如,把每種聲母各自劃分為不同的類別,或者用不同的數值表示) 限制了捕獲語音變化的準確性。因此,正確的、數據驅動的方法是慢慢地學習適當維度的編碼。該學習模型通過聯合考慮拼音語言特征,如發音地點和發音方法,以及高質量的帶注釋的訓練數據集,來獲得準確的編碼。

對現有語音相似性方法的 7.5 倍改進

因此,學習到的編碼可以用于,例如,接受單詞作為輸入,并返回語音相似單詞的排序列表 (語音相似性依次降低)。排名很重要,因為下游應用程序不會擴展到考慮每個單詞的大量替代候選,尤其是在實時運行時。作為一個真實世界的例子,IBM 研究院評估了為來自社交媒體數據集的 350 個中文單詞中的每個單詞生成候選排序列表的方法,并且展示了比現有語音相似性方法的 7.5 倍的改進。

IBM 研究院希望這項工作對于代表語言特定的語音相似性所產生的改進,有助于許多多語言自然語言處理應用的質量。這項工作是 IBM 研究系統項目的一部分,最近在計算自然語言學習的 2018 屆 SIMLL 會議上發表,預訓練的中文模型可供研究人員在聊天室、消息應用程序、拼寫檢查程序和其他任何方面的應用程序上使用。

標簽: 漢語語音 編碼

上一篇:62%中國AI畢業生赴美,機器學習人才最高產大學出爐
下一篇:近300支學生隊伍參賽2018軟銀機器人大賽

新聞排行