close

點擊下方卡片,關注「新機器視覺」公眾號

重磅乾貨,第一時間送達



近日,「大學生用OCR+正則表達式快速核查學生核酸報告」的新聞火了,細心觀察我們就能發現,生活里OCR的身影到處都是:文檔掃描、車牌識別、證件識別等等。在這個信息技術高速發展的時代,越來越多的小事可以「智能化」、「信息化」,曾經需要浪費諸多人力物力才能完成的事,可以通過新的技術輕鬆地解決。


01

OCR是解決什麼問題的技術


文章開頭提到的新聞里,OCR技術到底解決了什麼問題?上圖是一張上海市健康雲截圖,復旦大學博士生使用OCR技術監測到文本,再提取其中的文字信息,每次核查數百人的截圖僅需幾分鐘。抽象的字符讓人感覺技術深不可測,但是等讀者們稍作了解之後,會發現高科技是非常親切實用的。OCR中文名叫做「光學字符識別」,它可以將名片、票據、身份證、駕照等文檔資料中的文字和數字信息轉換成文本信息,以電子形式保存,實現信息採集的快速錄入。現在有非常多實現OCR功能的免費接口,傳入圖片路徑,就可以調用接口函數,識別圖片中的文字信息。

02

OCR的常見流程


常見OCR方法的具體過程通常分為以下四個步驟:
預處理:是對圖像進行初步的處理,目的是減少圖像中的無用信息,方便提取特徵。常用的步驟有:灰度化、降噪、二值化、字符切分、歸一化等。
特徵提取和降維:是識別文字、數字的關鍵步驟之一。特徵是識別文字的關鍵信息,每個不同的文字通過特徵來和其他文字進行區分。數字和英文字符相對中文字符來說更容易區分。為了提高後續分類器的效果和效率,往往還要進行降維,進一步減少特徵中的無用信息,同時把有用信息儘可能多地保留下來。
分類器設計:對特徵進行識別,是進行文字、數字識別的關鍵步驟之一。在這一步中,分類器對特徵進行分類,將其識別成對應的字符。分類器一般需要提前訓練,常見的分類器有:支持向量機、神經網絡等。
後處理:是對分類結果進行優化處理的步驟。經過分類器分類得到的結果是不完全準確的,比如對形近字的識別錯誤率比較高、識別結果存在排版錯誤,後處理就可以有針對性地解決這些問題。例如,通過語言模型校正將「存哪裡」校正為「在哪裡」,並對識別結果進行格式化。

03

正則表達式是什麼


正則表達式在人物場景中承擔的是什麼責任呢?經過前面敘述的流程,從圖片中提取出來的文字信息,需要進一步整理提取,實現自動化核查。正則表達式通常被用來檢索、替換符合特定模式的文本。正則表達式可以提取出文本中的特定文本,即:姓名、證件號碼、採樣時間、檢測結果等,再輸出到Excel中。

04

OCR數據集


目前主流的OCR任務會使用深度學習方法,這意味着數據集是其中的關鍵。
文本檢測數據集SynthText:
https://www.robots.ox.ac.uk/~vgg/data/scenetext/
ICDAR是競賽數據集,2003年、2013年、2015年、2017年分別開放了以下數據集:
http://www.iapr-tc11.org/mediawiki/index.php/ICDAR_2003_Robust_Reading_Competitions
https://rrc.cvc.uab.es/?ch=2
https://rrc.cvc.uab.es/?ch=4
https://rrc.cvc.uab.es/?ch=5&com=introduction
谷歌圖像中收集整理得到的IIIT 5K words數據集:
http://cvit.iiit.ac.in/projects/SceneTextUnderstanding/IIIT5K.html
還有一些公開數據集,如:SVT、CUTE等。Github上有一個OCR數據匯總可以查看:
https://github.com/WenmuZhou/OCR_DataSet
大多數OCR數據集包含的圖像數量比較少,並不足以訓練出一個模型,需要合成新的數據集使用。

05

小結


OCR技術不算是最新的技術,早在十年前它就火過,隨着近年深度學習的迅速發展,基於深度學習的OCR技術也逐漸成熟,能夠更好更靈活地應對不同場景,已經成為科技公司的能力標配。


本文僅做學術分享,如有侵權,請聯繫刪文。

—THE END—
arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()