《中国社会科学报》2013年02月25日 总第419期 作者:田清源
【核心提示】从信息交流的角度看,语言的产生和进化是一个信息优化的过程。用信息理论考察语言为语言研究提供了新视角。
语言的基本功能是信息交流,这种信息交流通过听说双方的互动得到实现。从信息交流的角度看,语言的产生和进化是一个信息优化的过程。用信息理论考察语言为语言研究提供了新视角。
语言产生的基础
在人类进化过程中,人们希望将积累的经验和知识传授给他人和后代。在日益复杂的生活和劳动中,人与人之间必须进行大量协作,没有实时的信息交流难以保证协作的顺利进行。人类进行信息交流的愿望,是人类对语言最基本的需求。
直立行走,使人的口、颚和声道结构等发音器官发生了生理变化。包含声带在内的喉头位置下移,使得人能够更自由地运用呼出气流控制声带震动发声。口腔、鼻腔、舌、齿、唇等器官可以形成更多的声音共振形态,使得发音种类增加。人类在生活和劳动中,身体各个部位的动作,特别是手的动作日益精细,使人类对自身身体动作的控制能力得到了高度训练,这种日益精细的控制能力也作用到发声器官,使人类能够准确控制声带和声道,发出想要的声音。
在人类具有强烈的信息交流愿望、智力发展到一定水平并且能够准确控制发声时,语言的产生便成为可能。
语言是人类信息交流的最优编码系统
语言可被看作是信息编码系统。口头语言中的语音,如汉语的声母b、p、m、f,韵母a、o、e等,都是基本的编码单元,将这些编码单元排列组合就能形成词句。词句所要表达的含义,就是编码中包含的信息。
自然选择使得生命系统得以延续和发展,优化程度相对较低的种群和个体将被自然选择淘汰。进化的结果是,人类不断实现各种活动的优化,使用语言进行信息交流也不例外。从这种观点出发,我们这样对语言抽象地定义:语言是人类信息交流的最优编码系统,它在同一语言的使用人群中,在保证可靠的前提下,试图以最小的开销获得最大的信息交流量,以实现最高效率。优化就是在效率与可靠性之间进行折中。
美国数学家克劳德·香农(Claude Shannon)1948年10月发表在《贝尔系统技术学报》上的论文《通信的数学理论》(A Mathematical Theory of Communication)被视为现代信息论研究的开端。他给出了信息熵(Information Entropy)的数学定义。信息熵是信息编码中所含信息量大小的度量。
信息论的理论之一是,编码的信息含量与编码出现的不确定性成正比。用生活中的一个实例就可以对这一理论进行说明:如果你知道今天要下雨,有人告诉你今天要下雨的话,你没有比听到之前获得更多的信息。但如果你不知道今天会下雨,当有人告诉你今天会下雨时,你就获得了新的信息。
信息论的另外一个观点是,增加对相同信息的编码量,使得信息编码中存在冗余,可以提高信息交流的可靠性。生活实例是,在噪声很大的环境中说话,我们除了提高升调、增大音量外,还会选用不宜听错的句子,甚至进行多次重复。
汉语语音编码满足信息优化原则
为了寻找语言信息编码效率的证据,我们利用大型语料库对汉语语音进行过统计,发现下面两个有趣的规律。
规律之一是,汉语普通话的声母中,“不送气音”的使用频率都明显高出相应的“送气音”。例如b的使用频率大约是p的2.5倍,d的使用频率大约是t的3倍,等等。送气音发音时,有明显的气流流出口腔,所以一次呼吸吸入的空气量,可以发出不送气音的数量要多于送气音。可以认为不送气音的发声效率高于送气音。更多地使用效率较高的不送气音,表明汉语普通话的语音编码满足高效的信息优化原则。
统计发现的另一个规律是,普通话的韵母中,元音a、i、e的使用频率较高,u的使用频率居中,ü的使用频率最低。有学者研究表明,母语是汉语普通话的儿童最先掌握的元音是a、i、e,之后是u,最后是ü,这与普通话语音的使用频率高度一致。我们有理由认为,最先掌握的元音,是学习、记忆、发音、听辨的综合容易程度最高的元音,简单地说也就是最容易使用的元音。容易使用的语音编码使用频率高于不容易使用的,这再次表明汉语普通话的语音编码满足高效的信息优化原则。
语言编码的可靠性也在汉语中有明显的例证。汉语方言众多,南方方言者的普通话,受方言语音体系的影响,往往带有南方方言特征,最明显的特点有:声母中的平舌音和翘舌音不分(如c和ch),鼻音n和边音l不分,韵母中前鼻音与后鼻音不分(如in和ing)。这么多语音不能区分,居然不会引起信息交流障碍,说明汉语语音编码中存在信息冗余,保证了信息交流的可靠性。使用大型语料库进行语音统计,我们也发现,汉语普通话一个音节的平均信息熵是8.6比特,而声母和韵母之间的互信息高达2.2比特。音节的平均信息熵表示的是每个汉字发音所包含的平均信息量。声母和韵母之间的互信息表示的是每个汉字发音中声母和韵母相互提示的信息量,这个信息量越大,当我们听清声母,就更容易预见韵母会是什么;或者当我们听清韵母,就更能够猜出声母是什么。正是因为这些信息的存在,当我们作为母语者对普通话的语音规律形成了经验后,哪怕听不出平舌音和翘舌音、鼻音和边音、前鼻音与后鼻音的区分,也能通过音节中声母和韵母的相互提示,猜出本来应该具备的正确发音。我们的统计研究表明,对平舌音和翘舌音不分、鼻音和边音不分、前鼻音与后鼻音不分的猜测正确率可达77%—93%。如果再将音节放到多个音节组成的词语、句子的上下文中,欲传递的信息被完全恢复并不困难。这可以作为汉语普通话信息编码可靠性的一个有力证据。
进一步比较英语语音和汉语语音的信息含量,我们发现,英汉辅音平均信息含量相近,但汉语元音平均信息含量明显高于英语的元音。汉语的基本编码单元的信息含量较高,可在一定程度上补足汉语语法形式较弱而存在较少的语法信息含量。这可在一定程度上解释为什么与英语相比,汉语可以有较不严格的语法形式。
从信息优化看语言获得和语言学习
与灵长类动物相比,人类独有的认知能力是“他人感知的能力”。这种能力被称为第二级别的感知获得,它是指人与他人处在同一个环境时,不仅能够知道他人看见了什么,而且能够在自己的心智中构建起他人是怎样看待这个事物的。这个能力为人类的信息交流构建起基本的平台,在这个平台上,信息交流者之间共享知识和感受。
人的各种感官接收到的信息数量巨大,不可能对所有信息同样对待,都作加工处理和记忆。人类对信息处理这样进行优化:对事物进行整体感知,以系统为单位来把握事物——在不关注细节时忽视细节,在需要关注细节时将注意力聚焦于细节,而忽视细节以外的信息。与此同时,人类提取相似系统的共性,形成具有层级的概念。
母语的获得是概念和语言一体化的过程。在婴儿所处的环境中,语言的语音、语义以及它们表征的概念是同步出现的。人类最初形成的最基本概念是直接和语言绑定在一起的。一般认为,语言获得第一关键期是0—7岁,第二关键期是8—12岁。语言获得的关键期,也正好是人类最初认知世界的时期,这个时期形成的是人类最基本的概念。语言获得关键期之后,这些基本概念已经形成和固化在母语之上。因此,如果过了语言获得的关键期,尚未建立起与某种语言绑定的基本概念,这种语言的学习将会显得困难。这也正是大龄外语学习者感到外语难学的根本原因。
(作者单位:北京语言大学汉语水平考试中心)