110 光學字元辨識系統(OCR)應用在普查作業之由來

  • 張貼日期:2010/6/10
  • 更新日期:2010/6/25

光學字元辨識系統(OCR)應用在普查作業之由來

早於西元前3000年以前,埃及與巴比倫即已進行以課稅及徵兵為目的之人口普查,惟囿於技術環境與可用工具,迄19世紀中,普查之辦理並無太多的變革;惟普查作業繁雜且資料量龐大,須動用大量經費與人力,因而長期以來,如何有效運用資訊技術,改善作業環境、增進資料處理品質與促進資料運用,一直是各國普查機構努力之方向,以提升普查整體效益。

1890年美國人口普查首次採用Hollerith打孔機替代傳統人工計算方式,資料處理時間由1880年之7.5年縮短為2.5年,方開啟以先進工具與技術輔助普查作業,惟運用上仍有諸多不便與限制;1951年世界第一部數位式商用電腦UNIVAC I問世,並隨即於美國普查局運作,揭開普查與電腦之密切關係,且資訊技術亦逐漸在普查中扮演著日益重要角色;1966年起隨著電腦處理能力大幅提升,資料庫之運用逐漸增加,已有少數先進國家積極發展OMR(Optical Marker Recognition)光學辨識、文件影像處理等技術;至1976 ~ 1985年間,OMR設備與技術已相當成熟,許多國家導入至普查資料處理,以增進時效與品質,並節省處理費用;1985年迄今,則致力於發展數字與字母辨識相當成熟之OCR技術,以提升手寫文字辨識能力,並整合後端自動註號(Automatic Coding)及資料檢誤(Editing)能力,以充分發揮OCR於普查資料處理之效能。

我國則自民國55年由中華電腦中心引進IBM S360-30型電子計算機,方開啟國內普查業務自動化,惟設備及技術尚始於開發階段,係以打孔製卡轉磁帶作為資料輸入方式;至64年抽樣調查,首次改用人工鍵入錄製磁帶方法輸入資料,可減少製卡驗卡,縮短資料錄製時間;之後隨資訊科技不斷進步,為減少人工輸入錯誤及提高資料品質,於79年引進光學符號閱讀機(NEC N7814 OMR)及磁帶機供為79年戶口及住宅普查資料輸入之用,節省資料處理人力及時間。

近年來資訊技術突飛猛進,電腦及軟硬體皆有長足進步,其中OCR是影像處理、文字辨識、檔案管理及資料處理等技術之整合產品,我國在OCR方面之研究,主要係參考日本經驗,開始研究發展時間於1980年左右,國內三大研究單位,工研院電通所、電信所及資策會幾乎同時開始以印刷文件研究OCR,且於1989年資訊展合作開發「印刷中文辨識系統 」,自此OCR在我國逐漸受到重視,並開始運用於金融業之信用卡、會員卡,保險業之要保書,製造業之傳票輸入等。

行政院主計處鑒於工研院經多年研發改進後,手寫數字及字母的辨識率已達95%以上正確率,經評估應用OCR技術於普查上應屬可行,因此為使普查大量資料輸入時間於預定之4個月內順利完成,乃於87年委託有研發OCR經驗之工研院電通所,針對行政院主計處人力資源調查,先期開發「人力資源OCR閱讀作業系統」,經測試結果數字辨識正確率高達99%以上,且系統作業穩定性尚佳,足以架構完備之普查OCR系統,爰89年戶口及住宅普查決定以OCR技術及ORACLE大型資料庫為基礎,開發「光學字元閱讀辨識系統」,以為普查資料輸入之用,主要係採Kodak 9500、7500兩型中、高速掃瞄器,配合OCR表單掃瞄系統之開發,將調查表經由掃瞄、辨識及校登後將影像資料轉成文字資料,提供後續編表之用,相關調查原始表單則以影像方式存放於DVD光碟片,另為便利原始調查表單查詢作業,乃以ORACLE資料庫建立住戶編號索引檔,借由WEB查詢介面調閱表單影像,以達資料保存及共享之多重目的。

89年戶口及住宅普查首次運用OCR系統,執行成效頗佳,有關執行重要結果與成效可歸納為以下4點:

(一)採用OCR系統,使用高速掃瞄器,縮短於60個工作天,完成1,200萬張普查表(A3大小)掃瞄辨識工作,平均每分鐘掃描50張,每3秒辨識1頁;採線上檢誤,免除列印錯誤報表等工作。包括普查表資料輸入、檢誤更正作業於5個月內完成,每月人力110人,每月工作天數21日,較79年OMR大幅節省人力約1/2、時間3個月、紙張用量1300箱、磁帶2000捲。

(二)字元校登及檢誤作業方面,係採一人一機直接由螢光幕看影像,並於線上校登檢誤資料,由於資料掃瞄正確度較高,因此字元校登率(校登量/辨識量*100)僅1.21%,檢誤錯誤率(錯誤數/總筆數*100)僅約2.37%,不僅提高資料品質,且較79年普查減少人工調閱原始表件及列印錯誤報表等作業。

(三)本系統將普查表以光碟影像存檔,僅需1坪不到之空間存放,既可達表件保存及備份之規定,又可節省存放空間,具雙重效果,另光碟影像除儲存用途外,尚可提供不同需求者應用,如開發WEB影像查詢子系統調閱原始表件。

(四)89年戶口及住宅普查資料處理完成後,所有設備由農林漁牧業普查、工商及服務業普查與其他專案調查延續使用,由於累積豐富之作業經驗,使後續辦理之兩大普查資料處理作業更為順暢,達到資源共享,設備充分利用之目的。

鑒於前揭之辦理經驗與成效顯著,99年人口及住宅普查、農林漁牧業普查、100年工商及服務業普查均將賡續使用OCR系統,並朝向縮短資料掃描、辨識及校登時間、提高字元辨識率等方面繼續精進。

(主計故事109,取材:行政院主計處內部文案,第四局整理,2010.05)