漢王影研依托數(shù)字化行業(yè)開發(fā)及應(yīng)用經(jīng)驗(yàn),打造全行業(yè)數(shù)字化周邊智能硬件,通過軟件+硬件的完美結(jié)合,更好的服務(wù)于全行業(yè)數(shù)字化、數(shù)據(jù)化、數(shù)智化的發(fā)展。
紙質(zhì)數(shù)據(jù)的“進(jìn)化”過程,是現(xiàn)代社會數(shù)字化轉(zhuǎn)型的生動體現(xiàn)。在這個過程中,識別效果直接決定應(yīng)用效果。為了實(shí)現(xiàn)紙質(zhì)材料在PC、移動端的數(shù)據(jù)分析應(yīng)用,需要經(jīng)過一系列的處理步驟。首先,利用高拍儀、掃描儀等采集設(shè)備對紙質(zhì)材料進(jìn)行數(shù)字化加工,生成影像材料。然后,通過OCR文字識別技術(shù)將生成的圖片轉(zhuǎn)化為文本數(shù)據(jù)。接下來,對文本進(jìn)行要素抽取,形成結(jié)構(gòu)化的數(shù)據(jù)并進(jìn)行存儲。最后,將結(jié)構(gòu)化數(shù)據(jù)提供給業(yè)務(wù)系統(tǒng)進(jìn)行數(shù)據(jù)分析和利用。
從紙質(zhì)數(shù)據(jù)的“進(jìn)化”過程中可以看出,圖文識別效果直接決定應(yīng)用效果。然而,隨著信息社會的發(fā)展,紙質(zhì)文檔的形態(tài)越來越復(fù)雜化、多樣化,給文字識別帶來了新的技術(shù)挑戰(zhàn)。傳統(tǒng)的OCR技術(shù)已經(jīng)無法滿足文檔“多樣性”的識別及利用需求。因此,業(yè)務(wù)應(yīng)用上亟需一款集約、穩(wěn)定、準(zhǔn)確的OCR圖文識別引擎。
漢王影研圖文識別引擎正是基于以上需求痛點(diǎn)專門打造,利用AI文字識別技術(shù)及圖像處理技術(shù),從文檔數(shù)據(jù)化、數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)精細(xì)化、數(shù)據(jù)智能化出發(fā),打造數(shù)據(jù)處理產(chǎn)品矩陣,圍繞數(shù)據(jù)應(yīng)用場景研發(fā)系列產(chǎn)品,為政法、醫(yī)療、民生、檔案館等各行業(yè)客戶及集成商提供數(shù)據(jù)利用服務(wù),并在價值挖掘過程中提供技術(shù)賦能。
影研圖文識別引擎
產(chǎn)品特點(diǎn)
安全無憂
支持私有化部署,可完全在內(nèi)網(wǎng)或政務(wù)專網(wǎng)內(nèi)部署,數(shù)據(jù)不外漏,保證信息安全。
快速靈動
采用新一代云計算架構(gòu),支持高并發(fā),成熟穩(wěn)定,易于整合,面對海量數(shù)據(jù)也能快速靈動。
精準(zhǔn)可靠
基于AI機(jī)器學(xué)習(xí)、深度學(xué)習(xí)技術(shù),包含文字識別、卡證識別、表格識別、版式識別、圖像識別、文本解析、要素抽取等功能,識別處理解析準(zhǔn)確率高、速度快。
影研圖文識別引擎
產(chǎn)品功能
精準(zhǔn)識別
印刷體文字識別:識別準(zhǔn)確率高達(dá)99%
手寫體文字識別:識別準(zhǔn)確率高達(dá)95%,高于人眼辨認(rèn)
表格識別:可將表格線精準(zhǔn)還原,一鍵導(dǎo)出EXCEL
證件識別:支持20+類常見個人企事業(yè)證件材料
圖像元素檢出:支持印章、手印、簽字、圖片、國徽、人像、條碼、二維碼等10+類元素檢出
優(yōu)化閱覽
雙層PDF合成/雙層OFD合成:支持自由復(fù)制文本復(fù)用
版式精準(zhǔn)還原:段落版式1:1精確還原
圖像智能處理:“臟圖”智能過濾、無懼干擾
材料自動命名分類:支持文件切分、標(biāo)題提取、文本規(guī)則匹配
要素抽取
支持NLP結(jié)構(gòu)化、半結(jié)構(gòu)化要素抽取,包含文本內(nèi)容要素抽取、表格要素抽取、卡證要素抽取。
影研圖文識別引擎
優(yōu)勢亮點(diǎn)
識別干擾自適應(yīng)
針對表格、混排等復(fù)雜版面、版面污損、自由手寫、扭曲形變、文字劃線涂抹、印章、帶有底灰底紋的復(fù)印證照造成干擾情況,引擎利用海量臟圖進(jìn)行深度學(xué)習(xí),識別效果絲毫不受干擾,不影響識別準(zhǔn)確率。
快速優(yōu)化提升
引擎基于機(jī)器學(xué)習(xí)技術(shù),可結(jié)合不同行業(yè)的業(yè)務(wù)數(shù)據(jù)進(jìn)行訓(xùn)練,具體的訓(xùn)練流程為:獲取文檔材料→進(jìn)行樣本標(biāo)注→生成深度學(xué)習(xí)算法模型→大規(guī)模算法迭代→引擎服務(wù)化→上線部署→人機(jī)耦合→循環(huán)標(biāo)注,最終達(dá)到持續(xù)優(yōu)化的目的??稍诰€搭建深度學(xué)習(xí)流水線,不斷自我完善,成為活化的圖文識別引擎。
識別速度快
基于常規(guī)GPU服務(wù)器配置,整機(jī)識別吞吐率可達(dá)10張/秒,可根據(jù)實(shí)際業(yè)務(wù)并發(fā)需求進(jìn)行彈性擴(kuò)展,支撐批量化、實(shí)時同步調(diào)用需求。
支持多種部署平臺
支持X86平臺部署,同時支持國產(chǎn)化平臺部署,支持飛騰+寒武紀(jì)、鯤鵬+Atlas300、海光+寒武紀(jì)多種國產(chǎn)化硬件計算資源,支持國家信息化應(yīng)用創(chuàng)新戰(zhàn)略。
支持多生態(tài)適配
截止目前,經(jīng)過統(tǒng)信、麒麟、華為、達(dá)夢、東方通嚴(yán)格的兼容性功能測試、性能測試及安全測試,圖文識別能力引擎滿足測試要求,成功與統(tǒng)信服務(wù)器操作系統(tǒng)V20、銀河麒麟高級服務(wù)器操作系統(tǒng)V10、華為鯤鵬&昇騰芯片、武漢達(dá)夢數(shù)據(jù)庫、東方通中間件完成國產(chǎn)化適配認(rèn)證,并取得兼容性認(rèn)證證書??筛鶕?jù)不同項(xiàng)目要求進(jìn)行快速適配,提供更完善的圖文識別生態(tài)。
影研圖文識別引擎
應(yīng)用場景
法院立案回填
在法院受理立案過程中,法官將審核通過的材料進(jìn)行掃描,掃描完成后進(jìn)行圖文識別,將身份證、護(hù)照、營業(yè)執(zhí)照等證件材料進(jìn)行識別并提取身份信息,起訴狀、送達(dá)地址確認(rèn)書等制式材料進(jìn)行識別并提取訴訟實(shí)體信息;最終可實(shí)現(xiàn)將姓名、住址、案由、訴訟請求等結(jié)構(gòu)化信息回填到立案系統(tǒng),法官只需審核即可完成立案登記。
醫(yī)療病案全文檢索
在醫(yī)療病案全文檢索過程中,對歷史病案在掃描后進(jìn)行OCR圖文識別并建立索引,接下來對病案文本進(jìn)行分詞等自然語言處理,將結(jié)構(gòu)化信息進(jìn)行存儲,根據(jù)檢索信息進(jìn)行規(guī)則匹配后返回查詢結(jié)果。
民生社保錄入回填
在民生領(lǐng)域,為社保中心提供社保經(jīng)辦材料識別解析服務(wù),通過經(jīng)辦材料識別、結(jié)構(gòu)化信息提取,實(shí)現(xiàn)參保人信息自動錄入、經(jīng)辦材料內(nèi)容檢索、醫(yī)保報銷明細(xì)內(nèi)容提取,為業(yè)務(wù)辦理人員減輕大量重復(fù)工作及復(fù)雜工作,大大提升辦公效率。
檔案館(室)全文檢索
在檔案領(lǐng)域,針對檔案館(室)接收和數(shù)字加工的檔案圖像進(jìn)行OCR全文識別和雙層PDF轉(zhuǎn)換,實(shí)現(xiàn)檔案全文檢索,方便快速精確查閱檔案。
結(jié)語
在數(shù)字化轉(zhuǎn)型的浪潮中,漢王影研圖文識別引擎憑借卓越的技術(shù)實(shí)力和多元化的應(yīng)用場景,為政法、醫(yī)療、民生、檔案館等各行業(yè)客戶提供高效且精確的數(shù)據(jù)處理解決方案。從文檔數(shù)字化到數(shù)據(jù)智能化,影研圖文識別引擎始終以技術(shù)創(chuàng)新為內(nèi)核,為數(shù)據(jù)價值的挖掘和利用賦能。
END