102 與文字共舞___中文數位化發展簡介

  • 張貼日期:2010/4/28
  • 更新日期:2010/6/25
102 與文字共舞___中文數位化發展簡介
102 與文字共舞___中文數位化發展簡介

與文字共舞___中文數位化發展簡介

電腦科技創造出新的文明世代,國內中文碼的發展,亦造就出揚名於世的資訊產業與生氣蓬勃的數位化環境。從文字發展的介紹到中文碼發展歷程的描繪,以及數位化技術的闡釋,本文將與您一同分享這份由歲月與智慧所凝聚出的甜美成果。

一、 前言

中文數位化技術對大多數民眾甚至是科技專家而言,或許是個既陌生又專業的領域,早期中文電腦技術尚在萌芽階段,行政院主計處電子處理資料中心便率先研究發展中文相關的軟硬體應用系統,奠定了日後中文數位化發展的基礎,在政府與民間的合作下,發展出諸如政府大型資訊系統所引用的戶役政EUC碼、稅務碼、電信碼、圖書館專用的CCCII碼等中文化編碼,民間資訊業者研訂的Big5等,以及在國際上相繼出現的ISO10646、Unicode等標準碼,這些都是以內碼的型式存在的,而都已經普遍應用於現有的資訊環境中。至於「內碼」一詞,它就好像是電腦世界中的方言或母語一樣,在同一個內碼環境中,彼此之間可直接與立即的溝通。

為因應國內各種中文資訊交換與整合不同自碼系統的殷切期盼下,中文標準交換碼CNS11643孕育而生,從摸索到成熟,在產、官、學、研各界的大力投入下,造就了國內的中文資訊環境整合的契機,也成為國際漢字標準參酌的重要典範;而所謂的「交換碼」類似電腦界的官方語言,用以銜接不同內碼環境,使得溝通不致於產生障礙與隔閡。

因此身處於幸運的這一代,已承傳並享受著前輩辛勤得來的果實,這些手胼足胝的歷程是值得喝采的,就讓我們懷著一顆感恩的心來細數著這一幕幕美麗的故事。

二、文字的演進軌跡

文字是文明的推手,不但活化了民族的生命,也創造出認同的歸屬,匯集著老祖先的智慧與生活經驗。

《易經‧繫辭》記載著「上古結繩而治,後世聖人,易之以書契,百官以治,萬民以察,蓋取諸夬。」,不論是國家重大事務或是生民百姓的瑣碎家常,有了結繩這種小而美的記載方式,老祖宗們嘗試將溝通做系統化的整理;如果將結繩視為一種訊號的話,廣義來說實與現今數位化方式相仿。

「倉頡之初作書也,蓋依類象形,故謂之『文』。其後形聲相益,即謂之『字』。文者,物象之本;字者,言孳乳而寖多也。著於竹帛謂之『書』。因此『文字』被創造出並保留在『書』中。甲骨文、金文、玉石文字、簡帛文字、孔壁古文、籀文、篆文、隸書等文字在歷史上相繼出現,成為現今世上保存歷史最悠久、一脈相傳的文字體系。而秦始皇一統天下後,篆文及隸書全國通用,開創出文字標準化的新紀元。

另一個文字發展的關鍵是印刷術,加上蔡倫的蔡侯紙公諸於世,使得文化傳播的方式從私塾獨授的簡帛時代大步跨越到的智慧分享的紙張時代;到了宋仁宗慶歷年間畢昇發明了膠泥活字版,更促使民智大開。因此,文字擺脫傳統人工撰寫手抄既緩滯又辛苦的方式,知識得以大量的複製與流傳,文明的腳步也加快了。

三、電腦數位化之發展

電腦數位化的發展造就了新的人類文明,如排山倒海般的建立了人類新的願景。

但要如何讓只能分辨0與1訊號(1bit)的電腦能處理文字呢?那就必須有文、數字的編碼系統了,將人類語言中的字符(Characters)轉換電腦內部能處理的數位型態。1960年代初期,美國國會圖書館制訂了英文的字元集和交換碼,作為美國圖書館界書目交換的共同標準,這便是ASCII(American Standard Code for Information Interchange)編碼系統的前身,ASCII用7個位元(範圍0~127)共128個字的編碼空間,將英文A~Z、數字0~9及其它符號數位化,賦予其唯一的編號,像「A」在電腦內的代碼為41H,00H到1FH位置編為控制字元,20H到7FH位置編為圖形字元,作為電腦之間交換文、數字資訊之用。基於互通原則,國際ISO組織(International Organization for Standardization)亦將此訂為ISO 646標準,現今電腦所處理的純文字文件便是以ASCII為基礎字集。

歐語或亞洲語言之編碼系統則需要更多字元來闡述文字,因此歐洲方面也發展出一套8位元的Latin-1字碼規則,以ASCII為基礎,增加常用字元到256個字。IBM公司就將80H到0FFH共128個字元編入框線、音標和其他歐洲非英語系的字母,一般稱為EBCDIC(Extended Binary Coded Decimal Interchange Code)。於是,逐漸形成現今電腦以8位元(1位元組)來存取字元集(character set)的運作方式。

四、中文碼的演進

由字母所發展出的「拼音文字」與我們一圖一字所呈現的「表意文字」,西方世界與東方文明對於字的詮釋有著不一樣的方式與表現,所以不論是ASCII、EBCDIC、Latin-1等8位元即可處理的字元集,無法處理為數大量的表意文字,而到目前為止,缺乏一種具體有效的方式,能將表意圖像文字拆解成類似拼音文字中字母的基本法則,做為數位化的處理編碼依據,因此採用兩個以上位元組來描繪出編碼空間的大字集因應而生,擁有13,053個字的大五碼(BIG5)如此,持續擴編新字目前九萬多字的國際通用編碼(UNICODE)亦如此,諸多這類電腦系統中所謂的「內碼」,因其不同的編碼,反而使得數位文件在網路發達的時代造成流通之不便,因而衍生了標準化的「交換碼」。國家標準交換碼「CNS11643」孕育而生,行政院主計處電子處理資料中心也應用資訊技術,研發出「全字庫」營運平台提供國內無障礙的中文文字交換環境。

早在民國61年,由於當時國內的資訊環境尚屬萌芽階段,行政院主計處電子處理資料中心便開始研發中文軟硬體的應用系統,像中文表報輸出系統(CROS)、字根輸入法中型中文鍵盤、第一代中文終端機、中文線上作業系統等,促使各界對發展出國內專屬的中文化電腦環境有了進一步的認知,並有初步的共識,67年行政院就中文電子計算機系統之發展成立專案研究小組,68年在國家建設研究會議中,與會的專家學者在討論後達成編碼的共識,行政院主計處電子處理資料中心乃據以編定『中文資訊交換標準碼』之施政計畫,於是展開編定中文字碼的工作,亦開啟了中文電腦發展與應用的嶄新時代,民國69年由行政院國家科學委員會所舉辦的溪頭會議,各專家、學者達成國家中文資訊標準交換碼編碼原則並報院核定,翌年行政院函令國科會、教育部、中央標準局及行政院主計處電子處理資料中心組成專案作業小組,持續推動編碼工作。(另69年為因應當時國外電腦處理東亞語文資料的需求,便由國字整理小組規劃並頒布CCCII(Chinese Character Code for Information Interchange)以供使用,至今仍有許多圖書館系統採用。)民國71年編定常用字碼;民國72年行政院資訊推動小組成立編碼技術作業小組,針對已定之編碼原則完成『通用漢字標準交換碼』,並決議試用2年。

74年,國科會與行政院主計處電子處理資料中心邀集各相關單位與業者組成技術小組,檢討試用結果、進一步修訂編碼原則後重編,75年獲行政院核定,正式公布實施。同年中央標準局審定頒布為國家標準,編號「CNS11643」;81年該局再因應各界之需要,由原兩個字面共13,051個字,大幅擴編為7個字面共48,027個字, 公布並更名為『中文標準交換碼 (Chinese Standard Interchange Code)』。現為整合全國各資訊系統與用字上的需求,其字面數已擴充到15字面,除增納國內諸如戶役政、工商、公路監理等重要行政系統的用字外,亦將國際標準編碼ISO10646中各國的拼音文字、CJK字集收納其中。標準檢驗局預定於95年編審公告CNS11643最新版本,總字數將高達9萬多字;同時,新版中亦規劃擴增字面至80字面,用以搜納更多如古代漢字、各民族用字等的中文字。

五、中文碼的介紹

大五碼 (Big5)

民國72年出現了第一部擁有處理漢字功能的個人電腦─IBM5550,加速了國內發展中文電腦的熱潮。財團法人資訊工業策進會與國內13家業者合作進行的「五大軟體專案」,在政府的大力支持下,資策會以「通用漢字標準交換碼」之前身「常用字碼集」為藍本,發表了一套專為五大中文套裝軟體所設計的中文內碼,Big5遂成為我國中文電腦的業界標準。

  Big5內碼擁有13,053個中文字、408個符號及33個控制字元的字集,雖引領風騷20年,但由於無專責機構負責維護,微軟、倚天、宏碁等中文系統廠商基於擴充上的需要,推出了不同版本的Big5碼。政府有鑑於不同版本的Big5對於國人已產生使用上的困擾,於是經濟部標準檢驗局在民國92年委託財團法人中文數位化技術推廣基金會修訂Big5編碼字元表,正式定名為「Big5-2003」。由於原Big5碼13,053個中文字中,發現『兀』字與『嗀』字重複編碼,所以此版本調整後的總字數為13,051個中文字,同時也新增了30個數字符號、24個部首、14個罕用符號、268個日本假名,以及34個表格符號共370個符號。

又行政院主計處電子處理資料中心鑑於政府機關公文及資訊系統進行電子傳遞時,因各單位擴充Big5碼之自造字而無法交換處理,協商行政院研究發展考核委員會成立「Big5碼字集擴編計畫」專案處理,搜納公務部門在一般文書上最常用之自造字加以編訂,民國86年7月擴編完成「Big5+碼」。又為能使該字集能在資訊業務上正常運作,於是從Big5+中挑選3,954個字編訂Big5碼造字區碼位,完成Big5碼補充字集(Big5 Extension Character Set)的建立工作,亦即是公務上所熟知的Big5E字集。

國際通用碼 (Unicode)

各國為處理資訊化的工作大多制訂了本土使用的字元碼。其依各國語言的字元集的大小,決定採用單位元組或多位元組的編碼方式。單位元組字元碼多採ISO/IEC 8859系列的8位元單位元組字元碼,多位元組交換碼則多遵循ISO/IEC 2022的編碼結構。對於國際數位化資料的交流,無異衍生出諸多的困擾,於是有了發展多語言整合性字元集的共識。在73年,國際ISO組織正式開始制定國際字元集編碼標準。此項工作交由ISO/IEC JTC1/ SC2/WG2工作分組負責,編訂出UCS(Universal Multiple-Octet Coded Character Set),編號訂為ISO/IEC 10646。

77年Xerox公司建議以將電腦字元集編碼的基本單位由現行的7或8個位元擴充到16個位元,利用216多達65,536個碼位容納全世界各種語言的字元和常用符號。新的字元集編碼標準被稱為Unicode。80年由IBM、DEC、Sun Micro、Xerox、Apple、MicroSoft、Novell等公司共同成立Unicode協會(The Unicode Consortium),並由Unicode技術委員會(UTC,Unicode Technical Committee)從事各國字元蒐集、整理、編碼等工作。於是在同年發表第一版(Unicode 1.0.0)的Unicode標準。之後WG2與Unicode協會達成協議,將Unicode併入UCS的BMP(Basic Multi-lingual Plane如圖)字面,並將字元的搜集、整理和編碼等工作交由WG2負責,所以後來UCS(ISO/IEC 10646)與Unicode共同闡述同一個字元集。

  UCS亦即Unicode共搜錄拼音文字、表意文字、各種符號和控制字元等四種字元。其中WG2將表意文字蒐集、整理與比對工作,交由其下所設之表意文字書記組(Ideograph Rapporteur Group, IRG)專責處理。在ISO中所認定的表意文字,係指源自於中國,東亞各國正在使用或曾經使用過的漢字,包括台灣、中國大陸、日本、南北韓、越南、新加坡和港澳等地區,因此IRG成為我國與國際標準編碼組織最為重要的聯繫窗口,目前正透該組織申請國內所新增的兩萬多個戶政用字,同時我國代表也爭取到古漢字小組秘書組一職,對於參與國際活動及強化各國情誼用力良多。

UCS(或稱UCS-4)採連續編碼,不再避開C0和C1控制碼區,以32個位元為基礎的編碼方式,並劃分成四組八位元,以群(G-octet)、字(P-octet)、列(R-octet)和格(C-octet),分別代表編碼結構中的群組(group)、字面(plane)、列(row)與格(cell)的關係(如右圖)。每一群組由256個字面所組成,每一個字面由256列所組成,每一列則包含256格,每一格為一個碼位。兩個碼位FFFEh和FFFFh保留不用。所以整個編碼空間總共256×128共32,768個字面,每個字面為256×254共65,534個碼位,整個UCS可訂出65534×32768共2,147,418,112個碼位。目前僅有第0群組的第0字面的基本多語文字面(BMP,Basic Multi-lingual Plane)、第1字面、第2字面和第14字面真正收容編碼字元。

國家標準交換碼 (CNS11643)

在中文內碼或中文作業系統中,就現實環境而言一直存在著系統間中文資訊無法直接交換的問題,甚至在同樣的資訊環境內也會有因自造字而產生的同碼異字的現象,更加深數位資料交換處理上成本的虛耗。因此,解決中文資訊交換所衍生出的中文交換碼,便成為大家一致的期待。國家標準交換碼CNS11643就在國人的殷切期盼下誕生了,也在大家的努力下逐漸成為國內最大、最完整的字集,進而成為國際表意文字編製內容的主要供應來源。

CNS 11643 第一版在75年正式公布實施,共收錄了13,051個中文字,分屬1,2兩個字面。由於施行起來無法滿足各電腦化業務所需,於是行政院主計處電子處理資料中心開始彙整各機關自造字,在81年由標準檢驗局公佈第二版,並更名為「中文標準交換碼」(Chinese Standard Interchange Code,以下簡稱為CSIC),總共搜納48,027字。此外,為使CSIC與ISO/IEC 10646字集能同步化的編制,92年經濟部標準檢驗局再度著手擴編CNS 11643,第三版的編碼字面數由第二版的7個字面擴編為15個字面,中文字集也從原來的四萬八千餘字增加到約九萬多字。另為一勞永逸的解決可編碼字面容量飽和的問題,CNS 11643第三版也將編碼空間由第一版原先所規定的16字面增加到80個字面,預計95年公告施行。

CNS11643遵循ISO/IEC 2022之規定,採兩位元組編碼,字元碼每一位元組使用21h~7Eh的94個編碼位置。因此,編碼空間為94個字列,每字列94個字格(亦即碼位),每一字面總計94×94共8,836個碼位,第三版增訂為80個字面共706,880個碼位。

值得一提的是在各界對於中文碼整合工作寄予厚望下,行政院主計處電子處理資料中心承諾起這個重責大任。結合了政府與民間的力量,在多年研究與努力,建構了「全字庫」資訊服務,其為包容與實踐了國家標準字碼集的資訊平台,用數位的技術來銜接日常生活與資訊系統間對中文用字同步的需求,發展至今,除字碼、字型及字詞屬性整合外,也引進新的數位觀念,創新研發文字互轉的機制與字碼應用方案,近年來更在電子化政府與e化台灣等重大政府資訊計畫中,提供了中文資訊互轉介面,將各種不同內碼、不同造字、不同系統中所產製的資料,透過該系統數位化處理,能正確與完整的完成各資訊系統間資料之互通,期待在全字庫所提供的各種數位化服務催化下,真正落實中文資訊環境的普及與無障礙。

六、結語

資訊數位化的發展,是現階段人類文明發揚的推手,也是智慧進化的動力,文字演變的過程也述說著一代代對於傳統文化的那份堅持與理想,當科技與文化古今交會時,雖有著交融時的衝突,但更期待著是兩者的互利共生;在漫漫歷史的演進中,從結繩到數位編碼,對於文化生命的延續與民族圖騰的傳承,觸動著使命與挑戰的原始天性;不論是Big5、Unicode或是CNS11643....,除保有在機器瞬間的脈絡邏輯中,更期待能烙印出深邃的文化內涵與傳承精神,讓文字見證著歷史的榮衰與成敗,希望、未來都是浪漫又美麗的榮耀。

(主計故事101,取材:行政院主計處電子處理資料中心內部文案、行政院主計處電子處理資料中心全字庫網站:http://www.cns11643.gov.tw,余保倫整理,2006.06)

附件下載