表格、表單、名片數(shù)據(jù)采集
時間:2009-8-11 16:27:13 人氣指數(shù): 【 大 中 小 】
北京天潤智力采用先進的數(shù)據(jù)處理技術(shù),對各類調(diào)查問卷、表格數(shù)據(jù)進行數(shù)字化處理,尤其擅長處理以下類型的調(diào)查數(shù)據(jù):
·固定表格:稅務(wù)報表、保險單、調(diào)查問卷、試卷等。 ·半結(jié)構(gòu)化文檔:發(fā)票、訂購單、支付票據(jù)、裝箱單、名片等。 ·非結(jié)構(gòu)化文檔:合同、條款、信函、租借協(xié)議和其它純文本文檔等。根據(jù)客戶數(shù)據(jù)的具體格式和需求,對表格數(shù)據(jù)進行初步整理,設(shè)置好數(shù)據(jù)庫字段,并搭建數(shù)據(jù)采集局域網(wǎng),實現(xiàn)網(wǎng)絡(luò)化數(shù)據(jù)采集。
(1)管理員端:用來控制整體表格處理過程, 通過文件模板編輯準備表格模板,并且對預期結(jié)果進行測試,統(tǒng)一表格模式。
(2)操作員端:錄入/掃描表格,文字識別,對識別結(jié)果進行檢驗和存儲。
1、對于手寫文字、非結(jié)構(gòu)化表格,采用雙錄軟件進行兩遍錄入,人工核對數(shù)據(jù);
2、對于結(jié)構(gòu)化表格,采用“批量掃描 + OCR識別 + 文字校對”的模式進行處理。
技術(shù)人員采用OCR功能模塊成功的識別技術(shù)基礎(chǔ)上提供當前最高的精確度和穩(wěn)定性。
·圖象增強處理,提高識別效果,如糾偏、去噪。 ·數(shù)據(jù)文字提取,借助OCR識別技術(shù)精確提取相應(yīng)的數(shù)據(jù)和文字信息。 ·自動數(shù)據(jù)校驗,內(nèi)置檢驗準則,在自動識別期間用來增加識別精確度。軟件提供校對界面,將識別結(jié)果和原始圖像進行對照,人工校對和錄入,包括縱向校對和橫向校對兩個模式。
圖像文件直接存放到對應(yīng)目錄下,便于客戶存放;數(shù)據(jù)文件存放到Excel表格或Access數(shù)據(jù)庫中,可以進行查詢、統(tǒng)計等操作