汉语是牺牲了什么,才成为世界最紧凑、最高效的语言?
汉语并没有“牺牲”什么,只是采取了一种较为少见的编码方式,通过相对较高的学习门槛换来了语言的高压缩性。
通常来说,如果要对一类事物进行编码,大体上有两种方式,一是设置较简单的编码体系、但符码的长度会增加,另一个则是设置较复杂的符码体系,需要大量的前期记忆,但符码的长度会减少。
这里可以举一个古代的例子——在看古装题材电视剧的时候,看到主人公住店,经常能听到店小二说“您住天字号房,您住黄字号房”等等。这里,“天”、“黄”等就是根据《千字文》来给房间号命名。因为《千字文》里有互不重复的1000个字,理论上说,只要总数量不大于1000,每一个房间只需要一个单独的编码就可以。
这样,如果用数字表达是999号房的话,用这套系统来表示,说“乎”字号房也就够了。
将此扩展一下,那么如果三个字符叠加,一篇《千字文》可以表达10亿个数字,如设“天”为0,“地”为1,以此类推,那“地玄黄”就能代表123,而“焉哉乎”就能代表996997998,即九亿九千六百九十九万七千九百九十八。
“焉哉乎”VS“九亿九千六百九十九万七千九百九十八”,这样来看,“焉哉乎”可谓是极短了。
但这样编码的缺点很明显。十进制编码,只要记住0~9和十进制的规则就可以,而用《千字文》编码,你需要先牢记《千字文》的1000字以及每一个字对应的顺序。学习十进制编码的数字认读,半个小时学不会,那属于智商有问题。但用《千字文》来背,1个月做到随便说一个字就知道是第几个,都可能是一种奢望。
英文有26个字母,两个字母可以形成676个组合,4个字母可以形成差不多45万种组合。而汉字常用字是3000左右,2个汉字即可形成900万种组合。
中文正是通过这样相对复杂的编码,让每一个字符都有了更多的意义,从而可以通过更少字符的拼接,产生更多的含义。
与此同时,中文的这种编码方式还带来了另一个隐含的好处,即中文具有极高的压缩比。例如下面这句话:
中华人民共和国政府与美利坚合众国政府就全球范围内禁止核武器缔结条约
我们可以将其进一步压缩为:
中国政府与美国政府就全球禁止核武器缔结条约
觉得这还长,还能进一步压缩
中美就全球禁核武缔约
在这里,“中华人民共和国政府与美利坚合众国政府”可以简称为“中美”,但美国缩到最短也得是USA,不然总不能把中美合作叫UC合作吧?
实际上,就书面文字而言,白话文已经算是冗长的,因为白话文更强调与口语表达的一致性,所以很多可以用单个汉字表达的词都变成了两个字。如“珠”与“珍珠”、“禁”与“禁止”等。在书面写作中,这些文字是可以再压缩的。
字母文字是以字母作为最基础的编码元素的,然而这些字母本身不具有含义,必须通过组合才能具体表意。而汉字的每一个字,都有具体的含义,通过组合又可以生成新的含义。
此外,汉语还有一个极其“变态”的地方,那就是字的词性是非常灵活的,名词可以当动词用,动词也可以当形容词用。这样,汉字就不必拘泥于词性的变化和词语词之间的逻辑连接,而是可以靠理解来自动形成新的可交流的词语。
但这里需要说的是,通常把汉语与其他语言比,所体现出的“短”主要是针对书面语来说的,如果是纯口语,汉语的长度优势就没那么明显。如“我都不知道怎么样感谢你才好”和“I don't even know how to thank you”,长度差不多,英语说起来可能还更快点。但如果写成文字,“无以为报”四个字就够了。
而与字母语言文字相比,汉字的这种编码方式也有一个劣势——同音字太多。而如何解决同音字较多的问题,汉语交给了每一个说话的人来自主解决——你可以单独再编一个字或一个词,也可以通过增加双音节等方式来区分。
例如,“杯”与“碑”是同音的,如果口语说“昨见一bei”,不会有人知道你看到的是碑还是杯。针对这种情况,解决方案有很多,如可以说“昨天我见到一块碑”,也可以说“昨天我看到了石碑”,还可以说“昨天我见到了一个碑刻”。这个没有固定的解决方案,如何说全看个人。
而因为中国历史文化的传承一直没有断绝,长期的历史积累,还形成了一个很具有中国特色的东西——成语/典故。这东西就如同是压缩包一样,几个字就能表达非常丰富的意思,而对其解读又必须依托具体的文化背景。如“三人成虎”,仅从字面上完全无法理解——其字面意思应该是“三人变成了老虎”。再如“投鞭断流”,字面上的意思是“扔出鞭子,阻断了河流”——这也很难让人理解是什么意思。
语言对于文化的影响是很深远的。这种近现代以来,汉语面临的最大危机是在19世纪末、20世纪初,当时很多人将汉语难学视为中国贫穷落后的原因,而因为现代科学技术主要是在欧美诞生的,因此其技术的“编码”方式也是基于自己的语言传统。如电报的基础“语言”——摩尔斯电码,用英语来表示非常简单,就用“短-长”的信号就可以表示20多个字母和一些数字。只要你记牢了这些数字和字母,那么立刻就能上手发报。但是,汉字显然不能这么干——常用的汉字几千个,以人的记忆能力,很难短时间内翻译如此多的汉字编码,于是就只能先将汉字换成数字,然后再对照密码本进行翻译。
汉字的这种特点还带了印刷出版难的问题。因为汉字的字库不仅比英文字库规模大,而且检索和排版也更为麻烦,出版成本非常高。同时,汉字也无法在机械打字机上应用,只能靠手写,这也限制了汉字书写的速度。
在我个人看来,汉语最大的门槛是入门难,但这种“入门难”是因为前期要记忆的东西太多,需要花费很长的时间,其受限于普通人的记忆和理解能力。然而,对于计算机来说,这种记忆的难度并不存在。或者说,以计算机的处理能力,处理两位数编码和四位数编码的时间差异几乎无法感知。这有点类似于一些周边地质环境复杂的地方,资源很难建公路和铁路,经济长期得不到发展,但当飞机出现之后,情况就变了——航空规划只要考虑那一小片地方适不适合建机场就可以,而两个地方之间的道路如何,是无所谓的。计算机之于汉字,就是同时绕过了字符多和前期学习成本高、处理速度慢两大缺陷。
总的来说,以我的个人感觉,口语方面,汉语并未比其他语言简洁太多。一般来说,证明汉语较为简洁,都是以书面语为证据的,即如前面“我真不知道该怎么谢你”和“无以为报”的区别。而如果仅局限于书面语的话,那么汉语因为采取了复杂编码方式而带来的弹性和高压缩性,倒的确是其紧凑的原因了。