|
汉字基因工程 作者: 朱邦复 七、汉字基因工程 将前述的各种基因,利用现代化的科技,结合为一种拟人的、可与人沟通的应用工具,此工程即可称之为“汉字基因工程”。 除了沟通应用工具之外,若在商业立场,尚可开发出无数种极具价值的消费产品,只是这些项目并不在本文讨论范围。 汉字基因六大功能中,“字码”是建立在仓颉输入法上的(其它输入法需要外加接口),可以当作文字索引使用。尤其是在大量信息中,若要寻找某一类型、或某一笔资料,文字索引的良窳,其效率的差异有天渊之别。 这是基于在设计仓颉输入法的时候,我已经把字义分类考虑进去,以致在数据索引时,可以作双向比对。尤其是字码采用三十二位技术,其中前五个位专供文字分类,仓颉输入码占二十五位,可容约千万字,最后二位元保留给子字集分类用。 子字集是为同码异类字的分辨,例如00类视作繁体汉字,01为简体汉字,10为异体汉字,11为日文汉字。是则虽然一字四码,各码不同,却统属同一平面,随时可选择变换。 “字序”是文字索引的另一项武器,很多汉字内码没有序列观念,必须外建序列表,或用笔画,或用部首。而这两者都与人们的使用习惯没有直接关系,如果资料放置方式没有直观的顺序,则完全没有效率可言。 “字形”所衍生之字库,可以彻底解决当前中文系统文字不足与不能兼容的困境。目前完成之第六代中文字形产生器,所占程序空间仅160KB,若仅用仓颉码则不需储存任何代码页,有码即有字。再若增列对照码表,则可容纳国标码、大五码、JIS码,ISO10646,UNICODE等。每个字形皆可作各种大小及字体的变化,在速度上,每秒钟可组成16*16之字形四万六千个。 “字辨”有多种功能,除了文字辨识外,也有影像辨识的基因在内。只是限于中文平台的机能,“字辨”尚须配合其它硬件设施。 “字音”可供语音辨识及语音合成之用,任何一种汉字输入法均须经过学习,推广不易。若用语音辨识输入,效果最佳。同时,当理解系统完成后,再配以自然语言,语音的辨识与合成更是不可或缺的工具了。 最后,也是最重要的,在于“字义”的应用。前面所介绍的感觉、认识及思维基因,都必须有合适的“字义基因”作为接口,是称理解。唯有在理解下的信息平台,才具有真正的应用价值,而这种信息平台,也就是建立在汉字基因上的“中文系统平台”。 此外,根据上述各种基因所发展的三维绘图系统,能高速将文字经过理解后,转换成图片、动画,并能于每秒钟显示含一万个画素的图形三十幅。 当今网络最大的瓶颈,在于频宽有限,而传输的信息总是远远超过其容量。兹以六十分钟的影片计算,设剧本为三万字,但以VGA全彩显示,计有120亿字符的影像。如果在网络上传送,显然必导致壅塞,问题重重。如利用本系统,则仅需传送字码,三万字仅为六万字符,传输效率高达四十万倍以上。 我们再从设计的观点来看,当前各种微电脑的中枢(Central Processing Unit ),其功能都以数学运算为主,完全不符合汉字基因需求。因此,我们有必要另起炉灶,重新设计一个以“理解”为主、采用RISC结构的图形中枢。 目前全部汉字基因结构已经设计完毕,计有基因库、人性库、常识库,以三十二位总线,计占1M系统空间,组合程序512KB,其中包含免疫系统、辨识系统、理解系统及概念网络等。另外,尚有若干特殊的硬件设设,在此不赘述。 本平台仅为一种信息接口,专供人机沟通之用。计算机功能发展至今,相当于一批高效率的专业机器,为了充分发挥计算机功能,有必要设置若干计算机站,并以网络联接。任何人都可以通过前述的中文系统平台,用语音或键盘,命令理解系统,透过网络,搜寻各个计算机站的功能软件,并作最完善的服务。 这种方式最有利于我国现状,只需要极少数的资金,全国人民就可以享受最新信息的成果。此外,正当微软挟其信息领域的独占优势,强行推广其窗口文化之际,举世都战栗在其无餍的贪婪风暴之下。今天我们面临的并非第三波的文化之争,而是金钱有限与无限的游戏,当微软的财富攀上金字塔尖时,贫困者与信息的距离将更为遥远! “汉字基因工程”是自然体系下、最接近真实的一种技术。我个人虽竭尽心力,所能完成的着实有限,为了人类、文化、国家、民族的福祉,特此藉这个机会,公诸于众,期望大家群策群力,令汉字重放光芒。 (请见图一“功能说明”、图二“硬件结构”。) |