廣東振越智能家具有限公司—主營:密集架,智能密集架,電動密集架,檔案密集架,是一家專注檔案裝具設(shè)備生產(chǎn)廠家。
7 檔案 OCR的實施
7.1 圖像導(dǎo)入
7.1.1 檔案 OCR實施前,應(yīng)先評估紙質(zhì)檔案數(shù)字復(fù)制件質(zhì)量是否符合 OCR 的基本要求。評估內(nèi)容DA/T77—2019一般應(yīng)包括圖像分辨率、偏斜度、清晰度、失真度、亮度、對比度、灰度等。
7.1.2 紙質(zhì)檔案數(shù)字復(fù)制件的圖像分辨率應(yīng)不低于200dpi。特
殊情況下,如文字偏小、密集、清晰度較差等,可以適當(dāng)提高分辨率。文件命名應(yīng)符合 DA/T13、DA/T22、DA/T31的規(guī)定。
7.1.3 對質(zhì)量不能達(dá)到檔案 OCR工作基本要求的紙質(zhì)檔案數(shù)字復(fù)制件,應(yīng)按照 DA/T31的要求重新數(shù)字化后導(dǎo)入。
7.2 圖像預(yù)處理
7.2.1 二值化
7.2.1.1 在識別處理前,應(yīng)對彩色圖像進(jìn)行灰度化和二值化處理,對灰度圖像進(jìn)行二值化處理。應(yīng)采取局部自適應(yīng)二值化等算法,并支持自動或手動調(diào)節(jié)。
7.2.1.2 應(yīng)具備亮度和對比度值自動、手動調(diào)節(jié)功能。亮度和對比度值的設(shè)定以調(diào)整后的圖像中文字的筆畫連貫清晰為準(zhǔn)。
7.2.2 圖像降噪
7.2.2.1 對圖像中印刷體字符進(jìn)行識別處理前,需要根據(jù)噪聲的特征對待識別圖像進(jìn)行降噪處理,提升識別處理的精確度。
7.2.2.2 降噪處理應(yīng)去除在掃描過程中產(chǎn)生的污點、污線、黑邊等影響圖像質(zhì)量的雜質(zhì),去除檔案頁面原有的紙張褪變斑點、水漬、污點、裝訂孔等影響識別的地方。
7.2.3 傾斜校正
7.2.3.1 對圖像進(jìn)行識別前,應(yīng)進(jìn)行圖像方向檢測并進(jìn)行自動水平或垂直傾斜校正。
7.2.3.2 應(yīng)支持由用戶指定圖像傾斜的角度,采用相應(yīng)的圖像旋轉(zhuǎn)算法進(jìn)行手工傾斜校正。
7.2.4 圖像監(jiān)測
圖像質(zhì)量控制程序應(yīng)自動檢測圖像處理質(zhì)量。對無法達(dá)到質(zhì)量要求的圖像進(jìn)行標(biāo)注。
7.3 比對識別
7.3.1 版式分析
7.3.1.1 比對識別前應(yīng)對圖像中的字符塊結(jié)構(gòu)進(jìn)行版式分析,把圖像中相似的版塊信息劃分到一起。如橫排文本、豎排文本、表格、圖形等。
7.3.1.2 版式分析可采取多種分析方法,自動檢測各版塊類型,對圖像內(nèi)部區(qū)域進(jìn)行邏輯歸類,記錄各版塊的位置,存儲版面信息。
7.3.2 檔案特征分析
7.3.2.1 歸檔章分析。建立歸檔章式樣庫,自動識別圖像中的歸檔章,并根據(jù)歸檔章樣式,識別出字段位置,如全宗號、年度、機構(gòu)、保管期限、件號、頁數(shù)等。
7.3.2.2 公文要素分析。建立公文格式庫,可準(zhǔn)確識別公文的版頭、主體、版記三部分,識別公章、簽章等區(qū)域,比照公文樣式,識別密級和保密期限、緊急程度、發(fā)文字號、簽發(fā)人、標(biāo)題、主送機關(guān)、正文、附件說明、發(fā)文機關(guān)署名、成文日期、附注、附件、抄送機關(guān)等公文要素。公文要素 OCR識別要求見附錄 A。
7.3.2.3 表格分析。建立單獨表格處理模塊,建立專用表格模板定義工具,自定義文件處理單、發(fā)文稿紙、備考表等表格模板,識別表格中的字段位置。
7.3.2.4 印章分析。識別印章圖像位置,存儲印章圖像,建立印章名稱與印章圖像的關(guān)系庫,用于版式恢復(fù)。
7.3.3 識別和匹配
7.3.3.1 識別時應(yīng)抽取字體、字號、粗體、斜體、首行縮進(jìn)等字符特征,通過相似度計算方法,與特征數(shù)據(jù)庫比對,識別為計算機文字內(nèi)碼。
7.3.3.2 特征數(shù)據(jù)庫應(yīng)存儲多種印刷體字符、常用簽名和批注手寫體字符,具備可更新和可擴充性。對使用頻率高的漢字、英文、數(shù)字以及常用的符號、常用簽名和批注手寫體字符應(yīng)建立高頻庫。應(yīng)將無法識別的手寫體篩選出來,通過人工識別,并將識別成果存入字符庫。
7.3.3.3 應(yīng)通過將比對后的識別文字根據(jù)上下文在可能的相似候選字群中找出最合乎邏輯的字詞對識別文字進(jìn)行除錯或更正,以提高 OCR識別準(zhǔn)確率。
7.4 修改校正
7.4.1 應(yīng)對識別的文本進(jìn)行自動語義識別和校正,通過詞匯庫和語義庫對識別后文本中的字符、詞匯、語句自動進(jìn)行逐層分析更正。詞匯庫和語義庫應(yīng)具備更新和自動學(xué)習(xí)功能。
7.4.2 應(yīng)對候選字、拒認(rèn)字和可能有問題的字詞、語句進(jìn)行標(biāo)記。
7.4.3 應(yīng)支持以人工方式對 OCR成果進(jìn)行圖像與識別文字對照、修正等校正的功能,以滿足更高識別準(zhǔn)確率的特殊要求。
7.5 成果整理輸出
7.5.1 成果整理
7.5.1.1 支持按照紙質(zhì)檔案數(shù)字復(fù)制件的版式對 OCR 成果的段落和表格進(jìn)行版面理解與重建。重建后 OCR成果的段落編排、表格樣式應(yīng)與紙質(zhì)檔案數(shù)字復(fù)制件圖像一致。
7.5.1.2 應(yīng)自動分析、提取黨政機關(guān)公文的各公文要素,包括密級和保密期限、緊急程度、發(fā)文字號、簽發(fā)人、標(biāo)題、主送機關(guān)、正文、附件說明、發(fā)文機關(guān)署名、成文日期、附注、附件、抄送機關(guān)等。檔案 OCR成果中各公文要素位置應(yīng)與紙質(zhì)檔案數(shù)字復(fù)制件圖像一致。
7.5.1.3 應(yīng)支持調(diào)用、編輯、備份、導(dǎo)出 OCR成果,支持對文字、符號的搜索等功能。
7.5.2 成果輸出
7.5.2.1 檔案 OCR成果應(yīng)同時保存為純文本形式和雙層 PDF/OFD文件形式。
7.5.2.2 應(yīng)以紙質(zhì)檔案的件或頁為單位輸出、保存純文本形式檔案 OCR 成果。純文本形式 OCR 成
果保存規(guī)則參見表1:
7.5.2.3 應(yīng)以檔號為基礎(chǔ)對純文本形式檔案 OCR 成果命名,命名方式的選擇應(yīng)確保檔案 OCR 成果
命名唯一性。一件檔案保存為多個檔案 OCR成果文件時,應(yīng)按檔號結(jié)合 OCR 成果順序流水號為檔案
OCR成果命名。
示例1:檔號為 A001-001-0001-0001的紙質(zhì)檔案數(shù)字復(fù)制件,對應(yīng)的 OCR成果文件名為 A00100100010001.txt。
示例2:檔號為 A001-001-0001-0002的紙質(zhì)檔案數(shù)字復(fù)制件包含收文處理單、文件正本兩個文件,對應(yīng)的 OCR成果文件名分別為 A00100100010002_01.txt和 A00100100010002_02.txt。
7.5.2.4 應(yīng)根據(jù)紙質(zhì)檔案數(shù)字復(fù)制件版式文件格式,自動形成支持全文檢索的雙層 PDF 或 OFD 文件,方便全文檢索后對文件的閱讀。
7.5.2.5 應(yīng)支持按照檔案著錄規(guī)則和電子檔案元數(shù)據(jù)規(guī)范,自動保存檔案 OCR 成果中的黨政機關(guān)公文要素。相關(guān)公文要素應(yīng)保存到數(shù)字檔案館(室)應(yīng)用系統(tǒng)數(shù)據(jù)庫。
7.5.2.6 應(yīng)支持檔案 OCR成果中文簡繁體的自動轉(zhuǎn)換功能。
7.5.3 成果驗收
7.5.3.1 應(yīng)采用計算機自動檢驗與人工檢驗相結(jié)合的方式對紙質(zhì)檔案 OCR成果進(jìn)行驗收檢驗。
7.5.3.2 驗收檢驗內(nèi)容包括 OCR成果、提取的黨政機關(guān)公文要素、數(shù)據(jù)掛接情況、OCR工作文件和存儲載體等。
7.5.3.3 能夠采用計算機自動檢驗的項目應(yīng)采用計算機自動檢驗的方式進(jìn)行100%檢驗,對于無法用計算機自動檢驗的項目,可根據(jù)情況以件或卷為單位采用抽檢的方式進(jìn)行人工檢驗。抽檢比率不得低于5%。