當前位置：

最新國際文本檢測權威榜單發布：中國包攬前五

發布時間：2018-11-22 09:35:03 來源：澎湃新聞責任編輯：caobo

光學字符識別(Optical Character Recognition，以下簡稱OCR)是指分析圖像從而獲取文字信息的過程，不少智能手機中的名片掃描軟件就有這一功能。2018年11月20日，OCR領域的重要指標——國際文檔分析與識別大會(ICDAR)測試集被再次刷新，中國高校及企業包攬ICDAR2015排行榜前五，依次為云從科技(Pixel-Anchor)、南京大學與南京理工大學(PSENet)、曠視科技(Mask Text)、商湯科技(FOTS)、阿里巴巴(IncepText)。

國際文檔分析與識別國際會議 (International Conference on Document Analysis and Recognition，ICDAR)是由國際模式識別學會(IAPR)組織的專業會議之一，專注于文本領域的識別與應用。為了提高自然場景的文本檢測和識別水平，國際文檔分析和識別會議(ICDAR)于2003年設立了魯棒文本閱讀競賽(“Robust Reading Competitions”)。至今已有來自89個國家的3500多支隊伍參與。Google、Microsoft、Amazon、Facebook、北京大學、中國科學技術大學、騰訊、搜狗等均曾參與其中。

魯棒文本閱讀競賽的測試數據集一直在網上公開，可以隨時提交結果，是自然場景文本檢測行業中檢驗算法的測試數據集。ICDAR2015和ICDAR2017 MLT就是其中兩個測試子集。

澎湃新聞采訪了目前位于ICDAR2015榜單第一名的云從科技。云從科技研究院自身算法工程師李源介紹，CDAR2015和ICDAR2017 MLT是自然場景文本檢測領域的權威數據集，“基本上所有文章都會在上面檢測”。

CDAR2015榜單(2018年11月20日)。F值代表精度和檢出率的調和平均數，也是排名的根據，F值越大，檢測結果越優。

他為記者解讀了這份榜單，精度(Precision)代表檢測結果中正確文本的比例;檢出率(recall)則反映被檢出文本與圖片文本總數的比例，能夠體現是否漏檢了文本。為了檢測算法的效果，需要綜合考慮精度和檢出率，而F值正好代表精度和檢出率的調和平均數，也是排名的根據。

需要注意的是，這里提到的自然場景文本檢測并不等同于文本識別，前者不具備識別文字的功能，而是指在圖片中檢測出文本。

李源表示，2018年11月20日，云從科技在預印本網站arXiv上發表了最新論文成果，該論文提出了用于自然場景文本檢測的Pixel-Anchor框架。論文發表之前，他們在國際文檔分析與識別大會發布的ICDAR2015和ICDAR2017 MLT數據集上檢測了Pixel-Anchor算法，并刷新了ICDAR2015的最佳成績。

據悉，ICDAR2015是純英文文本檢測數據集，ICDAR2017 MLT則包含了拉丁文、英文、中文、韓文、日文、阿拉伯文等9種文字。云從的Pixel-Anchor算法在ICDAR2017 MLT綜合榜單中排名第四，排名前三的三家國外機構沒有提交公開論文。

ICDAR2017 MLT綜合榜單(2018年11月20日)(帶*號表示沒有發表公開論文)

除去沒有發表公開論文的幾家機構，ICDAR2017 MLT數據集前五名及框架名稱分別是云從科技(Pixel-Anchor)、阿里巴巴(ATL-cangjie)、商湯科技(FOTS)、曠視科技(EAST++)、南京大學(PSENet_NJU)。

ICDAR2017 MLT的中文榜單中，云從科技排名第一，商湯科技位居第二。

ICDAR2017 MLT中文榜單(2018年11月20日)

自然場景文本檢測案例

但相較于傳統的文本檢測OCR，自然場景中的各種商品、布景或自然場景圖片中的文本檢測與識別面臨著復雜背景干擾、文字的模糊與退化、不可預測的光照、字體的多樣性、垂直文本、傾斜文本等挑戰。與針對高質量文檔圖像的傳統OCR相比，自然場景文本檢測能在更寬泛的領域中應用，例如照片分析、車牌識別，圖片廣告過濾，場景理解，商品識別，街景定位，票據識別等。

標簽：國際文本檢測中國包攬前五