編碼漢字的使用受限于現(xiàn)有技術,使得傳統(tǒng)文獻的網(wǎng)絡閱讀失真
目前在通用電腦字符集中已編碼漢字的總數(shù)已達74588個,但是除了核心部分GBK的20902字外,CJK擴展集的5萬多字在數(shù)據(jù)庫中并不能用,無法實現(xiàn)檢索、查詢、統(tǒng)計等各種處理;而GBK的20902個字和擴展A的6582個字以外的編碼漢字無法實現(xiàn)上網(wǎng)查詢。

圖一
比如在網(wǎng)上查找“(圖1)”字(《集韻》“色入切,木茂貌”),而獲得的檢索結(jié)果卻是“穡”等一些毫不相干的字。造成這種情況的原因很簡單:雖然很多漢字已經(jīng)編碼,在字符集的國際標準中有了合法地位,但是現(xiàn)在的電腦程序系統(tǒng)卻并不跟進這種字符集標準的發(fā)展,因而造成絕大多數(shù)編碼漢字不被兼容。編碼字遭受網(wǎng)絡排斥的結(jié)果,就是檢索查找的對象被張冠李戴,傳統(tǒng)文獻的網(wǎng)絡閱讀失真或意義錯失。理論上說,這個問題應該是可以隨著電腦技術和標準的完善得到解決的,但事實上,改變這種狀況。目前還不在我們的能力范圍內(nèi)。根本原因是,電腦技術是一種受國際標準嚴格制約的技術,而主導這種技術的乃是微軟等少數(shù)國際技術壟斷企業(yè)。新的字符集標準雖然已經(jīng)出臺,但這些企業(yè)卻能決定世界上各個電腦終端是否采用這種標準。跟進這種新字符集標準需要的投入,相比其受眾面窄而必然導致的微小產(chǎn)出,決定了企業(yè)目前不會去采取行動。這就是目前數(shù)據(jù)庫、互聯(lián)網(wǎng)不支持占編碼漢字絕大部分的擴展字符集的根本原因。特別要引起注意的是,已經(jīng)正式在國際標準字符集中獲得合法地位的漢字,竟有70%以上還在遭受這種“不公正待遇”,這對我國傳統(tǒng)文化的數(shù)字傳播造成的負面影響是難以估量的。

