|
繁简体中文网站转码系统需求分析 (1)
(2)
繁简文字的差异
大陆采用的是gb2312内码的中文字,台湾、香港及部分海外华人地区采用的是繁体中文big5码的汉字。
繁体和简体字的写法有很大的差异。跟据信使网络繁简通®开发前的市场调查,大陆对繁体字的辨认能力会比台湾人或香港人对简体字的辨认能力强一点。这得益于中国大陆20年的对外开放,部分沿海地区的大陆人对繁体字已经没有障碍。但是,对于大多数大陆人来说,阅读繁体字依然存在障碍,特别是一些常用的香港字,根本读不出来,更不用说了解其意思。
台湾人读简体字的障碍会更大一点。长期在港台聊天系统中浸泡的人就会知道,大部分台湾人或香港人对异型简体字几乎不认识,除了部分是完全同型的之外,其它字结合上下文连蒙带猜也只能读对50%左右。这种情况是大陆网站所料不及的。因此,绝大多数的大陆网站实际上完全放弃了海外繁体用户,却连自己都不知道。
中文繁简体转换有多难?
繁简转换如果要做到100%精确,实际上是一个非常复杂的工作。根据转换的精确性,大概可以分成4个等级:
- 字符码表一对一映射。
- 对于一对多单字,根据词语识别进行转换。
- 对词语表达方式差异的转换。
- 根据上下文的词汇翻译。
等级1: 内码映射
其转换机制是按照内码字符映射表,在简繁转换时,用GB2312内码把Big5内码替换掉,在繁简转换的时候就反过来。例如,GB 2312-80 0xB9FA 代表简体字国, 简繁转换的时候就把它替换成0xB0EA 对应繁体BIG5码的国字。根据实验证明,如果按照字符的转错几率来统计,对一般性质的文本,该处理方式可以达到98%的准确率。但其弱点是由于简繁字体并非一对一的关系,因此忽略掉一些其它较不常用的字。
以下是一个一对一字符内码映射表的例子:
| 简体源 |
内码GB(EUC) |
繁体目标 |
BIG5 |
其它可能 |
 |
B3F6 |
 |
A558 |
 |
 |
B7A2 |
 |
B56F |
 |
 |
B8C9 |
 |
A47A |
 |
 |
B0B5 |
 |
B774 |
 |
 |
C0EF |
 |
B8CC |
 |
 |
D5F7 |
 |
BC78 |
 |
 |
C3C5 |
 |
AAF9 |
|
 |
CCC0 |
 |
B4F6 |
|
转换2: 一对多关系的字根据词语识别转换
对于一个单字应该翻译成在当前有可能的异种内码中的哪一个,我们可以根据该字所在的词汇来决定。比如,下表:
| 简体词语 |
繁体词语 |
拼音 |
英文意义 |
 |
 |
tou2fa0 |
hair |
 |
 |
te4zheng1 |
characteristic |
 |
 |
chu1fa1 |
start off |
 |
 |
gan1zao4 |
dry |
 |
 |
an4li3 |
secretly |
 |
 |
qian1li3 |
long distance |
 |
 |
qiu1qian1 |
a swing |
在上表中,头发与出发的“发”字在简体中是同一字型的,但繁体中却不一样。这样就可以根据“发”字所在的词汇来对该字进行准确的转换。如果是头发就翻译成“头发”,如果是出发就翻译成“出发”。
转换等级三 繁简词汇表达方式不同之转换
有一些词,在繁体与简体用户有不同的表达方式,下表显示了一些词汇表达方式差异的例子:
| 英文 |
简体表达方式 |
汉语拼音 |
繁体表达方式 |
汉语拼音 |
| bit |
 |
wei4 |
 |
wei4yuan2 |
| byte |
 |
zi4jie2 |
 |
wei4yuan2zu3
|
| CD-ROM |
 |
guang1pan2 |
 |
guang1die2 |
| computer |
 |
ji4suan4ji1 |
 |
dian4nao3 |
| database |
 |
shu4ju4ku4 |
 |
zi1liao4ku4 |
| file |
 |
wen2jian4 |
 |
dang4'an4 |
| information |
 |
xin1xi4 |
 |
zi1xun4 |
| Internet |
 |
yin1te4wang3 |
 |
wang3ji4-wang3lu4 |
| software |
 |
ruan3jian4 |
 |
ruan3ti3 |
| week |
 |
xing1qi1 |
 |
li3bai4 |
转换4: 根据上下文对词汇翻译
有一些词需要根据上下文才能够准确地决定如何翻译的,比如在中国大陆的语言习惯中,「文件」可以是通常意义上的「文件」,也可以表达计算机磁盘中存取的「文件」(file)。但是在繁体用户的语言习惯中,这两个东西就是分别用两个词来表达,通常意义上的「文件」和在计算机磁盘中保存的「档案」。
该层次的翻译需要根据上下文的意思对文章进行断句或分析。因此,是属于繁简互译中最难做的,而且消耗的系统资源也最大。
繁简体中文网站转码系统需求分析(2)
|