《语音学教程》书摘


语音学教程 / 林焘 , 王理嘉 著. -- 北京 : 北京大学出版社, 1992.11
ISBN 7-301-01844-4/H·186


绪论

  语音学是研究人类说话声音的学科。
  从语言的交际功能出发,把许多在生理和物理上不同的声音归纳成数目有限的语音单位,这种语音单位叫作“音位”。在汉语大多数方言中,n 和 l 分属两个音位;在南京、长沙等方言中,n 和 l 则同属一个音位。各语言或方言的音位内容和数目都不相同,音位的组合规律也不一样,不同的音位和不同的组合规律组成了各语言或方言的不同语音系统。归纳音位的方法是在传统的听音、记音方法的基础上产生和逐步发展起来的,形成了一门新的学科,叫做“音系学(或音位学)”。
  音系学以各个具体语言作为研究对象,主要着眼于语音的社会功能,从中概括出一般的理论,不大重视语音在生理和物理上的细微区别。

第一章 语音的形成

一 声波概述

1. 声音的传播

  因震动而发声的物体叫做声源。传播声音最重要的物质是空气。
  声源的震动引起空气的振动,产生振动波,这种振动波就是声波,声波传入我们的耳朵里,使得鼓膜也产生同样的振动,于是就听到了声音。

2. 振幅和频率

  我们听到的声音有强有弱,有高有低,表现出的波形都不一样。声音强的时候,空气质点振动的幅度就大;声音弱的时候,幅度就小。空气质点的振动幅度叫做“振幅”,也就是空气质点在振动时离开平衡位置的最大偏移量。
  声音在传播过程中,能量不断消耗,振幅逐步变小,声音也逐步减弱,直到无法听见。振幅减小到零,空气质点恢复静止状态,声波也就完全消失了。
  计算振幅的单位是分贝(dB)。声音的强弱是相对的,分贝值也是相对的。为了便于比较,通常都采用相同的参考级来计算,普通谈话时声音的强度大致在 60-70 分贝,如果高到 120-130 分贝,许多人都会感到声音太大,振得耳朵痛。
  稍有音乐常识的人都知道,弦乐器的琴弦越紧,声音就越高。这是因为琴弦紧,振动得就快,密波和疏波的交替相应加速,听起来声音就高。
  空气质点完成一个往返振动是振动的一个周期。相邻两个波峰或波谷之间的距离是这个声波的波长。声波振动的周期短,波长也短,振动速度自然就快,次数也多,听起来声音就高。
  声波每秒振动的周期次数就是声波的频率。计算频率的单位是赫兹(Hz)。例如,每秒振动 100 个周期就是 100 赫兹(简称 100 赫);如果完成一个振动周期所需要的时间是 1/1000 秒,那就是每秒振动 1,000 次,也就是 1,000 赫。人类所能听到的声音频率大致在 20 赫到 20,000 赫之间。老年人能听到的频率范围要比小孩子小得多,耳朵越背,听到的频率范围就越小。频率超过 20,000 赫的声波,不是人耳所能听到的,就属于超声波了。
  在现代语音学中,声波频率这个概念非常重要,许多语音现象都需要用它来解释。例如语音的高低,就是由声波频率的多少决定的。女子的声音昕起来比男子高得多,就是因为男子说话时声波频率一般在 80-200 赫之间,而女子则可以高达 400 赫左右。

3. 复波和频谱

  用钢琴和单簧管演奏同一个曲谱,音强和音高可以完全相同,但是一听就能区别哪一个是钢琴,哪一个是单簧管,这说明声音除音强和音高外还有它第三个特性——音色。
  前面谈到的声波,波形都很简单,只有一个频率,叫做纯音,高级音又能发出这种声音,听起来非常单调。世界上声音千差万别,其中绝大多数都不是纯音,而是由许许多多不同的纯音组成的复音,复音形成的复杂波形叫做复波。组成复音的各个纯音振幅不同,频率也不同,其中频率最低、振幅最大的叫基音,基音的频率称为基频。其余的都是陪音(或称泛音),陪音的频率都是基频的整倍数,振幅也都比较小。在复音中,由于基音和各陪音之间的振幅和频率相互影响,形成千变万化的复杂波形,听起来音色也就千差万别。我们通常听到的声音是许许多多谐波组成的,这些复杂多变的千万种复波构成了世界上千万种不同声音的音色。
  比较图中的两个频谱,可以明显看出钢琴和单簧管音色之所以不同,是由于谐波的数目、频率和振幅都不相同。钢琴音高是低音 C,基频 132 赫,以下谐波都是它的整倍数,即 264,396,528,660,
792,924,1056……等等。单簧管音高是中音 C,基频高一倍,是 264 赫,以下各谐波也都是它的整倍数,即 528,792,1056,1320,1584……等等。频谱上的谱线越密,声音越低;谱线越稀,声音越高。并不是每一个谐波都必然在频谱上出现,有的谐波振幅是零或接近于零,在频谱上就空出一条谱线。钢琴频谱 2112 赫以上就连续空出三条谱线,单簧管频谱空出 528 和 1056 赫两条谱线。

4. 声音的共振作用

  能够发音的物体都有它固有的频率。如果两个物体的固有频率相同,其中一个在外力的作用下发出声音,另一个物体受到相同频率的空气质点运动的影响,也会发出声音来,这种现象叫做声音的共振。
  我国古代早就发现声音有共振现象。唐代韦绚编撰的《刘宾客嘉话录》记录了诗人刘禹锡对他所谈的一些故事和史实,其中有这样一段记载:
  洛阳僧房中磬子夜辄自鸣,僧惧而成疾。曾绍夔素与僧善,往问疾,僧具以告。夔出错鑢磬数处,声遂绝。僧问其故,夔曰:“此磬与钟律合,故击彼应此也。”
  磬被锉了几处以后,固有频率改变,自然就不再受钟声频率的影响自动发声了。
  从瓶口向粗细不同的瓶子里吹气,粗瓶子发出的声音低,细瓶子发出的声音高,这说明瓶子之类的容器粗细形状不同,固有频率也不一样。容器的固有频率往往也是由许多频率组成的,如果和由许多不同频率组成的声波产生共振,声波中和容器固有频率相同或相近的那些频率会因共振作用而得到加强,其余的频率或是保持原状,或是减弱甚至消失。声波通过容器时,就这样因共振作用而改变原来的波形。如果通过不同形状的容器,改变的波形自然也就不一,改变比较大时听起来就成了不同的声音。人类发音器官之所以能发出各种各样的声音,和这种共振现象是有非常密切关系的。

二 语音的发音机制

1. 语音的来源

  从生理观点看,人类并没有专门用来发音的器官,能起发音作用的实际上是呼吸器官和消化器宫的一部分。为了便于说明人类的发音机制,我们经常把这些部分统称为发音器官。语音就是人类调节呼吸器官所产生的气流通过发音器官发出来的声音。气流通过的部位不同、方式不同,形成的声音也就不同。了解发音器官的构造以及各部分在构成语音过程中的作用,可以直接帮助我们正确发出或辨别各种不同的语音。传统语音学对语音的定性描写和分类也是以发音器官的部位及其活动方式作为基础的。
  人类发音器官可以用图 1-10 来表示。

展开图片

  发音器官所产生的声音主要可以分为三种来源:
  a. 浊音声源
  气流通过声门时,使声带颤动,产生周期性声波,就是浊音。前一节介绍声波时所举各例都是周期性的,从语音角度看,都属于浊音。浊音最为响亮,是语音中最重要的声源。普通话 a 的声波就是周期性的,属于浊音声源。图 1-11 是 a 声波中的一小段,包含四个周期:

展开图片

  b. 紊音声源
  发音器官的某一部分紧缩成非常窄小的通路,气流通过时形成紊乱的湍流,产生嘶嘶的噪声,就是紊音。紊音的气流变化紊乱,没有规则,不像浊音声源那样具有周期性,所形成的声波是非周期波。普通话 s 的声波就是非周期性波,属于紊音声源。图 1-12 是 s 声波中的一小段,波形紊乱,没有周期性。

展开图片

  c. 瞬音声源
  发音器官的某一部分紧缩到完全不让气流通过,使气流产生比较强的压力,然后突然放开,气流瞬时间冲出去,产生一种非常短暂的瞬时爆破声,就是瞬音(或暂音)。瞬音声源使声波形成一个短暂的间歇,普通话 b,d,g 都是在发音前先有短暂间歇然后产生瞬时的爆破声,都属于瞬音。

2. 语音动力基础

  发音的动力是呼吸时肺所产生的气流。肺是由无数肺气泡组成的海绵状组织,本身不能自动扩张和收缩,要依靠肋间肌、横膈膜和腹肌的活动。肋间外肌收缩使肋骨上升,同时横膈膜下降,胸腔因而扩大,肺也随之扩张而产生吸气力。腹肌收缩压迫内脏使横膈膜上升,同时肋间内肌收缩使得肋骨下降,胸腔因而缩小,肺也随之收缩而产生呼气力。呼吸就是依靠这些肌肉的活动来进行的,呼吸所产生的气流就成为发音的动力,这个动力的基地就是肺。
  在平静呼吸时,肺气流相当稳定,一般听不见呼吸的声音,呼气和吸气时间大致相等,每分钟十六次左右,肺气压只略高于大气压。说话时胸腔活动很轻微自然,并不感到在用力,这时肋间肌是主要的呼气力,呼气放慢,使一个呼吸周期仅有约百分之十五的时间用于吸气。如果要用“一口气”说许多话,呼气和吸气的时间比例差别还要大许多。呼吸时肺气压只比大气压高出 0.25%,说话时则可高达 1%,比呼吸时提高四倍。
  没有肺的呼吸作用就不可能有语音,但肺对语音所起的作用主要也只在于提供了呼吸的动力。呼气量的大小和语音的强弱密切相关,语音的其他性质就和肺的活动没有直接的关系了。

3. 喉头和声带

  由肺呼出的气流经过气管到达喉头。气管是由半环状软骨构成的,上部接喉头,下部分成两支通入左右两肺,在两肺里又形成无数树状小分支,最小的分支直接和肺气泡相连。气流就是从肺气泡通过气管各小支到达喉头的。
  喉头由环状软骨、杓状软骨、甲状软骨以及与它们相连的肌肉和韧带组成。环状软骨处于喉头下部,与气管相连,形状像一个前低后高的指环。杓状软骨在环状软骨后面高出的部分之上,分为左右两块,像两个椎形的小构。甲状软骨最大,分为左右两块。在喉头前部合在一起,略向前突,形状像盾甲,成年男子突出较明显,从颈的外部就可以看出来,通常称为喉结。喉头的构造如图 1-13 所示:

展开图片

  
  图 1-13 中左图是从正面看喉头,中图是从背面看喉头,右图侧面分解。会厌软骨在喉头上面起喉盖作用。吞咽食物时舌骨向下压,会庆软骨被推弯盖住喉头的通路,防止食物进入喉头和气管。
  呼吸或说话时,会厌软骨打开着,气流可以顺利地通过喉头。喉头在语音中之所以具有特殊的重要作用,是因为产生浊音声源的声带就处在喉头的中间。甲状软骨、杓状软骨和环状软骨以及与它们相连的肌肉和韧带自上而下组成一个圆筒形的空腔,当中有四对韧带褶,两两相对。上面一对叫假声带,对发音并不起作用,下面一对就是发音时起主要作用的声带。
  声带是一对唇形的韧带褶,边缘很薄,富有弹性,成年男子的声带约有十三四毫米长,女子比男子的声带约短三分之一,小孩子的更要短一些。声带的一端并合附着在甲状软骨上,是固定不动的;另一端分别附着在两块杓状软骨上,平时分开,呈倒“V”形,当中的空隙是声门。发声时,杓状软骨靠拢,使得声带并合,声门关闭,呼出的气流被隔断,形成压力,冲开声带,不断颤动,产生声音。从图 1-14 的两个图中可以看出发声和不发声时喉头的不同状态。

展开图片

  左图是不发声时喉头的状态,这时环杓背侧肌收缩,杓状软骨分开,声带呈倒“V”形,声门敞开,气流可以自由进出。右图是发声时喉头的状态,这时环杓外侧肌收缩,杓状软骨转动靠拢,声带并合,声门关闭。图 1-15 是声带开合的纵剖示意图:

展开图片

  杓状软骨非常灵活,它的活动直接影响到声带的位置和声门的状态。图 1-16 是声门最常见的四种状态示意图:

展开图片

  图 1-16 中 A 是正常呼吸,声门敞开,B 是深呼吸,声门大开;C 是耳语,声带基本并合,杓状软骨之间形成三角形空隙,称为气声门,气流从这里擦出;D 是发声,杓状软骨转动合拢,声带完全并合。
  说话时声门经常处于图 D 那样完全关闭状态,这时呼出的肺气流被阻断,积聚在声门下面形成一股压力,冲开声带,压力解除,声带重新并拢,又形成压力,再次冲开声带,如此循环往复,声带不断迅速开闭,形成持续的颤动,把肺气流切成一连串的喷流,产生了像蜂鸣一样的嗡嗡声,这就是声带音。
  声带的颤动有很强的节奏性,一般人在正常说话时每秒钟颤动大约在 80 至 400 次之间,它所产生的声带音也就是有节奏性的周期波,成为语音中的浊音声源。
  声带音要经过咽腔、口腔和鼻腔才能使我们听到,这时的声波已经经过咽腔,口腔和鼻腔共振的调节,不再是原来声带音的原始声波了。我们是无法听到原始的声带音的。近些年来,用高速电影摄影机以及测量气流的仪器直接观察发声时声带颤动的情况和气流喷出的情况,发现声带颤动的方式和原因是很复杂的,气流在发声时被阻和冲开时压力的变化也有很强的周期性,如果测量气流压力的变化,用波形来表示,应该和声带音所形成的周期波相当一致。
  声带和语音的高低关系最为密切。乐器的琴弦越细,越短,绷得越紧,音调也就越高。声带也是这样。当连接杓状软骨的肌肉牵引杓状软骨侧向转动时,声带就绷紧,颤动就快,声音就高;杓状软骨反向转动,声带就被放松,颤动就慢,声音也就变低。人类这种控制语音高低的能力在语言中起极其重要的作用。汉语是有声调语言,声调的高低升降就是由声带的绷紧或放松所决定的。每个人声带的宽窄、厚薄和长短都不一样,说起话来声音的高低都不相同。小孩子的声带短而薄,因此声音又高又尖。成年以后,男子的喉腔比小时候增大一倍半左右,声带也随之变厚变长,声音比原来降低约八度;女子的喉腔只比小时候增大三分之一左右,声带也比男人略短略薄一些,声音只比原来降低约三度。到了老年,声带和喉头的肌肉都变得相当松弛,无论男女,声音都要比成年时期更粗更低一些。

4. 语音共振腔

  严格地讲,由声带颤动而产的声带音是通过喉腔,咽腔、口腔、唇腔和鼻腔这五个共振腔才传到人的耳朵里。喉腔、咽腔、口腔,唇腔和鼻腔组成人类发音器官的声腔,是非常灵活富于变化的共振腔。声带音通过声腔时,由于声腔形状的种种不同变化,产生不同的共振,形成种种不同的声音。图 1-18 是人类声腔的横剖面图。

展开图片

  喉腔和咽腔在声带和小舌之间,声带音产生后首先进入喉腔和咽腔。喉腔和咽腔的形状和大小可以随着舌头的动作、喉壁的缩张和喉头的升降而发生变化。人类很少直接用喉腔或咽腔作为主要共振腔来发音,但是,由于舌头的动作会影响喉腔和咽腔的形状,当改变舌头的位置时,喉腔和咽腔的形状有时也随着起了变化,影响到声带音的共振。声带音进入喉腔和咽腔后所产生的共振对形成语音也起相当重要的作用。
  喉腔和咽腔在入类演化过程中对提高发音能力起了很大作用。一般动物的声门很高,在声门和口腔之间几乎没有空腔,口腔里舌头和软腭可以活动的余地很小。人类的声门部位很低,在声门和口腔之间形成一个几十毫米长的空腔,就是喉腔和咽腔,舌头和软腭因此有了前后上下活动的充分空间,使得声腔的形状千变万化,发出种种不同的声音。人类虽然很少直接用喉腔和咽腔发音,但喉腔和咽腔的形成对人类语言能够迅速发展是起了非常重要的作用的。
  口腔是人类发音器官中最重要的部分,发音活动的一切复杂变化都是在口腔里进行的,这是因为发音器官里可以活动的部分几乎都集中在口腔里,其中包括唇、舌、软腭和小舌。这些可以活动的部分可以改变口腔的形状、容积和气流的通路,使声带音产生种种不同共振;也可以和固定部位接触,形成种种不同阻碍,使气流不能顺利通过,成为紊音和瞬音产生的声源。图 1-19 是口腔示意图,其中除牙齿、齿龈和硬腭外,都是能活动的。

展开图片

  口腔中最重要同时又是最灵活的器官是舌头。舌头的肌肉组织纵横交错,十分复杂,不仅整个舌头可以上下升降,前后移动,而且各个部分(舌尖、舌叶、舌而和舌根)都可以独立活动。舌头的活动千变万化,形成千变万化的共振腔,产生出种种不同的声音来。舌头在发音时的位置、形状和活动方式一向是语音生理分析的主要内容,也是语音分类的主要依据。在以后的章节里,我们还要对舌头的作用做进一步论述。
  双唇是声腔的主要出口,在唇和齿之间,形成一个小小的共振腔,就是唇腔。双唇可以完全闭塞成为堵住气流的闸门;也可以形成狭缝让气流摩擦通过,还可以撮起拢圆,使唇腔延长,改变共振作用。双唇的这些活动都使声音发生明显的变化。在协助表达言语信息和说话人的感情方面,双唇还具有其他发音器官起不到的作用,因为脸部的表情有时是可以通过发音时双唇的动作表达出来的。
  软腭和小舌也是口腔中能活动的部分,主要作用是改变气流的通路。在呼吸时软腭和小舌是下垂的,鼻腔和咽腔相通,气流由从鼻腔进出。说话时软腭和小舌有两种活动方式:一种是软腭和小舌向后上升,抵住咽壁,挡住通往鼻腔的通路,到达咽腔的声带音只能从口腔出去,在口腔形成共振。另一种是软腭和小舌下垂,咽腔通往口腔和鼻腔的通路都打开,到达咽腔的声带音可以同时从口腔和鼻腔两条通路出去,在两个共振腔里形成共振。这时如果口腔某一个部位闭塞起来,堵住气流,声音只能从鼻腔出去,就形成通常所说的鼻音;如果口腔和鼻腔的通路都畅通,声音同时从两条通路出去,就形成了所谓鼻化音,也叫口鼻音。图 1-20 是三种状态的示意图:

展开图片

  图 A 软腭和小舌向后上升,声音只能从口腔出去。B 软腭和小舌下垂,打开鼻腔通路,声音按说可以同时从两条通路出去,但是因为双唇紧闭,阻挡气流外出,结果只能从鼻腔出去,形成双唇鼻音 m。图 C 则是两条通路都畅通,发出的鼻化音同时具有口腔音和鼻腔音的特点。
  咽腔和口腔都是可变共振腔,鼻腔则是固定共振腔。不同的鼻音是由唇或舌的调节形成的。发鼻音时鼻腔是主要共振腔,口腔则是副振腔。发鼻化音时鼻腔和口腔所起的共振作用同等重要。

三 语音的感知

1. 人耳的构造

  说话时发出声来,通过声波的传递,到达另一个人的耳朵里,听懂了意思,这才完成了语音的全过程。要想了解听觉器官是怎样接收和分析语音的,必须对人耳的构造有一个大概的了解。人耳能感觉到空气压力极微小的变化,是非常灵敏的器官,由外耳、中耳和内耳三部分组成,如图 1-21 所示:

展开图片

  外耳包括耳廓、耳道和鼓膜。许多动物都可以根据声音的方向转动耳廓加强接收声音的能力,人类的耳廓则是固定的,对接收声音所起的作用很小。耳道长度约 2.5 厘米,直径平均约 0.7 厘米,一端通向耳廓对外敞开接收声音,另一端被鼓膜封闭起来,是一条细长的管子,共振频率约为 3,500 赫。声波进入耳道后,接近于 3,500 赫的频率都因共振作用而放大两倍以上,因此一般人对 3,000-4,000 赫的声音最为敏感。鼓膜处于耳道的一端,呈椭圆形,稍向内陷,非常薄,只有 0.01 厘米的厚度。声波通过耳道到达鼓膜时,它的压力变化引起了鼓膜的振动,转化为鼓膜的机械运动传到中耳。
  中耳是鼓膜后面的一个小小的骨腔,只有约两立方厘米大,里面有三块听小骨:锤骨、砧骨和镫骨,每块只有二十多毫克,是人体内最轻最小的骨头,同形成鼓膜和内耳之间的机械链,鼓膜因声波的作用产生振动以后首先推动锤骨,锤骨推动砧骨,砧骨再推动镫骨,镫骨的底板覆盖在内耳入口处的一块小薄膜上,称为前庭窗(或卵形窗)。鼓膜振动产生压力推动锤骨后,由于三块听小骨的杠杆作用,在镫骨底板上产生了比锤骨上更大的力,再加上鼓膜的面积比前庭窗要大 25 倍左右,前庭窗所承受的力本来就比鼓膜大得多,两方面合起来,前庭窗所承受的压力猛增,使内耳受到更大的振动,大大提高了人类的听觉能力。中耳骨腔的下方还有一条通向咽腔的咽鼓管,是与外界空气沟通的一条通道,可以调节气压,使鼓膜内外两面的压力保持平衡。中耳还有保护内耳的作用,如果外来的声音太大,镫骨就会转动,和前庭窗接触得不那么紧密,鼓膜也会绷紧,使振动减弱,避免损伤内耳。如果声音来得过于迅猛,中耳来不及起保护作用,内耳自然还是会受到损伤影响听力的。
  内耳深埋在头骨中,由半规管、前庭窗和耳蜗三部分组成。半规管的作用是维持身体平衡,和听觉无关。前庭窗是内耳的入口,一面和中耳的镫骨相连,一面和内耳的耳蜗相连,把从镫骨接收到的振动传给耳蜗。耳蜗的外形很像蜗牛壳,实际上是一条盘起来的管子,越近中心越细,管中间有一条非常细的导管,叫做耳蜗中阶,把耳蜗分为上下两部分,上一部分叫前庭阶,下一部分叫鼓阶,里面都充满了淋巴液,在耳蜗管的尖端有一个小小的蜗孔,使前庭阶和鼓阶之间的淋巴液可以流通。耳蜗中阶外面包着前庭膜和基底膜,中间充满粘度很高的内淋巴液。前庭膜把中阶和前庭阶隔开,基底膜把中阶和鼓阶隔开。基底膜上附有数以万计的毛细胞,细胞上端和耳蜗覆膜相连,组成非常精细的器官,叫柯替氏器官。柯替氏器官直接和听神经相连,通过毛细胞把接收到的机械运动转化为神经冲动,由听神经传送到大脑。图 1-22 是耳蜗横剖面示意图:

展开图片

  柯替氏器官把声波的机械振动转化为神经冲动的详细过程至今还没有被人完全了解。大致说来,在前庭窗被镫骨推动发生振动后,耳蜗里的淋巴液随着产生压力的变化,影响到基底膜,基底膜上的毛细胞就以不同的弯曲方式刺激听觉神经纤维,使神经细胞产生电化学脉冲,沿着听觉神经传送给大脑的知觉中枢。声波的频率不同,蜗管里淋巴液的压力就发生不同的变化,基底膜振幅最大的部位也随之不同。频率高,最大振幅的部位就靠近前庭窗;频率低,最大的振幅就接近蜗孔,即耳蜗最细的部分。不同部位反映不同的频率,这个部位的毛细胞也就只反映这个对应的频率。但是,人可以分辨的频率变化是非常精细的,单靠基底膜不同部位的反映是达不到如此高的分辨率的。对于听觉机理,显然还有许多问题有待于进一步探索。

2. 听觉和语音识别

  上文对声波、发音机制和听觉的介绍,可能会给人这样的印象:发音、声波、听觉三者之间存在着因果关系,即特定的声腔形状产生特定的声波,形成特定的听觉。这并不能说是错误的,但把三者的关系看得太简单化了。发音、声波和听觉之间实际上并不是简单的因果关系,同样的声波听辨结果可以不同,不同的声波也可以听成相同的声音,其间的关系是很复杂的。无论男子、女子、老人、小孩发出 a 音,听起来都是 a,但是声波显然有很大的差异。声腔的形状(包括声带的厚薄、长短等)和容貌、体型一样,因人而异,每个人都有自己特有的音色,特有的声波特点,但是,不管个人之间的声波特点差异有多大,在语音识别时,都不会因此感到困难。我们不但能听懂每个人说的话,而且有能力分辨出每个人特有的语声,也就是每个人特有的声波特点。叼着香烟说话,口腔的活动受到很大限制,声腔形状自然和平时说话不一样,但是,我们不但照样能听懂,而且能听得很清楚。这些例子都说明声波通过听觉器宫传到大脑进行语音识别时,是经过了异常复杂的加工过程的。近些年来,由于科学仪器和电子计算机的迅速发展,已经可以通过各种实验手段来了解这个加工过程,这方面研究工作目前仍处于摸索阶段,大脑识别语音的奥秘还远远没有揭开。
  大脑识别语音时,在从听觉器官传送来的声波中,显然只选择和识别语音有关的信息,声波所携带的其他信息对识别语音来说,都是多余的,研究哪些信息和识别语音有关,对人工合成语音和通信工程都非常重要。例如,从 a 的频谱上分析出哪些信息是识别 a 所必需的,提取出这些信息,就可以人工合成出 a 音来,其余的信息,也许能反映出个人声音的差异,也许根本就没有必要去感知(例如说话时伴随而来的其他噪音),无论是哪种情况,都和识别 a 这个音无关。
  人类识别语音的能力是和发音能力密切联系在一起的。儿童先要听懂了话才能学会说话,这时识别语音的能力先于发音能力,一旦靠握了发音能力,又会对识别语音能力产生影响,对自己能发的音易于识别,对自己不能发的音就不容易分辨。学习语音学,就要学会分辨自己不能发的音,不但能识别这些音,最好还能学会发出这些音。
  说话所产生的声波不但传到听话人的耳朵里,说话人自己也能听到自己的声音。大脑指令发音器官发出米的声音被自己的听觉器官接收重新传送回自己的大脑,这个循环过程叫做声音反馈。大脑根据反馈的声音判断发出的声音是否符合要求,如果不符合,就迅速发出指令,让发音器官做必要的调整。如果让说话人戴上耳机边说话边录音,同时控制放音磁头使声音延迟半秒左右到达说话人的耳朵,这时大多数人说话会变得结结巴巴,有人甚至无法说出话来。这是因为说出来的声音和听到的声音脱了节,原来的声音反馈关系被破坏,无法判断自己的发音是否正确,就产生了这种迟疑或停顿的现象,由此可见,声音反馈对发音是有相当大的影响的。长期严重耳聋的人,往往会出现某些音发不准的现象,这也是因为听不见自己说话的声音,丧失了声音反馈的能力,无法校正自己发出的声音,日久天长,就形成了错误的发音习惯。

四 语音的切分和分类

  任何科学在研究过程中都需要把研究对象分解成若干单位并加以分类,分类的标准和方法可以因研究的目的不同而有所不同。语音学也是如此,怎样把一连串话切分成若干单位并且根据一定的标准和方法对这些单位做出必要的分类,正是语音学的一项重要任务。
  前面已经谈到。声波是由音质(即音色)、音高、音强和音长四部分组成的,这四部分在语音中起着不同的作用,但在时间上又是同时并存的。说话人说出一连串话传到听话人耳朵里,听话人按照时间顺序接收到这一连串话所产生的声波,传送到大脑进行分析,这时音质、音高、音强和音长是同时到达大脑的,大脑有能力把这四部分分解开。就语音来说,音质的变化起最主要的作用,音高,音强和音长可以认为是依附于音质的,在不同的语音中所起的作用也不相同。因此,首先可以把同时并存的这四部分切分两个不同层次:一个层次是音质成分,另一个层次包括音高、音强和音长,统称为“超音质成分”或“非音质成分”。
  在一段话语中,音质成分是不断随时间变化的,我们可以根据音质成分的变化情况把这段话语切分成若干音段,音段的切分可大可小,例如根据语音停顿切分的音段就是比较大的音段,其中包括许多小音段。最小的音段发音应该是稳定不变的,波形应该是前后一致的,听觉上也应该只听成一个声音。例如单独发 a 这个音时,发音器官在发音过程中始终没有变化,无论发音时间有多长,这个 a 总是最小的音段。但是,当 a 进入比较大的音段时,受前面和后面音的影响,往往在它和前后音之间出现过渡音,这种音只是从一个音到另一个音之间的过渡,虽然有时很重要,但不能算是最小的音段。我们单独分别发 i(衣)和 a(阿)这两个音时,两个音段之间的界限非常清楚;如果连起来说成 ia(鸭),这个音段除了包含两个最小音段 i 和 a 以外,可以明显地感觉到从 i 到 a 是逐渐过渡的,中间并没有清楚的界限,这些过渡音虽然占据了一定的时间,但一般并不把它算做最小的音段。
  在听觉上最容易分辨的音段是“音节”。音节可以是最小的音段,但是更常见的情形是由几个最小的音段组合成的,例如,普通话 biān(边)这个音节是由四个最小音段组成的,英语 get(得到)这个音节是由三个最小音段组成的。汉语音节之间的界限最为清楚,除了极少数例外,一个汉字就是一个音节。在汉语里,“字”这个词除了指书面上的书写单位以外,还可以指口语里的一个个音节,“他说话字字清楚”指的就是每个音节都清楚。甚至一个小孩子也能够回答出一句话里有多少音节(虽然他可能是用一共有多少字来回答的)。音节在听觉上如此容易分辨,可是要从发音机制或声波特性上说明它的本质特点,却不是很容易的事。直到目前为止,还没有一种理论能充分说明音节的本质,也没有一种客观方法能把音节的界限完全划分清楚。
  超音质成分由音高、音强和音长三部分组成。从声波特性来分析超音质成分最为准确:根据基频确定音高,根据振幅确定音强,根据时间确定音长。但就一般应用来说,根据听话人的主观估计来分析也可以够用,在语言里,声音的高度、强度和长度的变化远没有音质的变化那样灵敏,所起的辨义作用也没有音质重要。超音质成分可以依附于一个音节上,也可以依附于比音节更大的音段上,是构成语调的主要因素。
  在不同的语言里,超音质成分所起的作用很不相同,因此很难有完全统一的分类标准。例如音高,在汉语里就有它的特殊重要性,“妈 mā”,“麻 má”,“马 mǎ”,“骂 mà”的音质成分相同,区别主要在于音高,这种音高的区别传统称为“声调”。对汉语和其他有声调的语言来说,可以完全依靠听觉对声调的音高变化加以分类和描写,而这种分类和描写对英语、法语或俄语等没有声调的语言就是没有必要的。
  许多语言的音节都有轻重音的分别,主要是音强和音长的变化形成的,也可以完全依靠听觉加以分类和描写。轻重音也能起区别意义的作用,例如普通话“买卖 mǎi mài”两音节都重读是“买和卖”的意思,“买卖 mǎi mai”第二音节轻读是“商业”的意思;英语 content 重音在前一音节是“内容”的意思,重音在第二音节是“满意”的意思。轻重音的分别往往包括音强和音长两方面的变化,有时甚至还引起音质的变化,这个问题后面还会详细讨论。

第二章 元音

一 元音的性质

1. 元音和辅音

  一段话总是由一些音质不断改变的最小音段组成的。我们可以根据发音动作的不同状态把这些最小音段分为开放型和封闭型两大类。气流从喉腔,咽腔进入口腔从唇腔出去时,这些声腔完全开放,气流能够顺利通过,这样产生的最小音段就是开放型的。如果这条通路的某一部分封闭起来,气流被阻不能畅通,这样产生的最小音段就是封闭型的。在一段话里,开放型音段和封闭型音段总是交替出现,形成音质各不和同的、连续不断的最小音段。传统语音学把开放型的最小音段称为“元音”,把封闭型的最小音段称为“辅音”。元音和辅音是语音学最基本的两个概念,语音中音质成分的分类和描写,都是以两个概念为基础的。
  发元音时气流顺利通过声腔,声带颤动,形成的声波都是周期性的,因此元音都是浊音。普通话里的 a,o,i 都是典型的元音。发辅音时由于气流暂时被阻不能通过或只能勉强挤出去,所产生的声音大都是瞬音或紊音。普通话里的 b,d,g 就是气流被完全阻断后产生的瞬音,f,s,x 则是气流勉强挤出产生的紊音。如果这时声带保持颤动,这些音就同时具有浊的性质。普通话里的 sh 和 r 都是紊音,但发 sh 时声带暂时停止颤动,发 r 时声带保持颤动,r 就兼有浊音的性质。
  发 m 和 n 一类音时声腔也是封闭性质的,气流在口腔中被阻,不过这时软腭和小舌下垂,打开了通往鼻腔的通路,使气流能够从鼻腔顺利出去,形成鼻音。发 l 时,声腔处于部分封闭的状态,一般是舌头把口腔中部封闭起来,气流从舌头的两边顺利出去。像 m,n 和 l 这些音,由于发音时气流可以畅通无阻,因此性质比较接近元音,形成的声波也和元音比较相似。但是,这时气流通往口腔的通路处于全封闭或半封闭的状态,因此仍应该属于封闭型的音段,把它们归入辅音。
  发元音时声腔各部分用力比较自然均衡,气流能够畅通无阻,气流量自然也就比较弱。发辅音时由于声腔封闭不让气流外出,起封闭作用的那部分声腔就要特别用力,因此声腔各部分用力是不均衡的,气流由于要冲破声腔的封闭,气流量自然也就需要强一些。
  根据声腔的开放和封闭基本上可以把元音和辅音分别清楚。但是,声腔的开放是可大可小的,如果开放得很小,接近于封闭状态,气流外出时只受到极轻微的阻碍,这时发出来的声音就是介于元音和辅音之间的声音。例如我们发 i 时,如果再把舌头略降抬高一些,舌面比较用力,声腔就接近于封闭状态,气流外出时会受到一些阻碍,听起来有轻微的摩擦声,这时i的性质就变得很接近辅音。这种处于元音和辅音之间的声音可以称为“半元音”。

2. 声腔共振和元音音色

  元音的音色是由声腔的共振决定的。发元音时首先声带颤动,产生声带音,同时软腭和小舌上升,挡住通往鼻腔的通路,使声带音只能从口腔出去。口腔是人类声腔中最灵活富于变化的部分,口腔的每一个细微的变化都会对声带音的共振产生影响,形成不同的元音音色。
  喉腔、咽腔和口腔、唇腔所形成的声音通道是一条弯曲略成直角形的共振腔。就声音的共振作用看,共振腔的曲或直对共振频率的影响并不大,成年男子的这条共振腔,从声带音的声源声带开始,到声腔的终端双唇为止,共约 17 厘米长(成年女子略短一些)。我们可以把它看成是一端封闭、一端开放的 17 厘米长的管子。封闭一端是声带,气流通过声带时使声带颤动产生声带音后进入这条管子,声带音在管子里发生共振,从管子的开放的一端出去,就形成了元音。管子的形状不同,所起的共振作用就不同,所形成的元音音色自然也就不同。
  元音前后两个声腔长短和宽窄的变化,主要由舌面收紧隆起的最高点的位置来确定。舌头位置的变化不只直接改变口腔的形状,而且也影响到咽腔。舌头最高点位置靠后咽腔就变窄,位置靠前咽腔就变宽。舌头是极为灵活多变的肌肉组织,位置的任何一点改变都会使前后两个声腔的形状发生变化,产生不同的共振,形成种种不同音色的元音。
  嘴唇的变化对声腔的形状也能起很大的作用。在一般情况下嘴唇是平展的,如果发音时把嘴唇撮圆,唇腔向前延伸,整个声腔变得长了一些,共振频率改变,元音的音色也随着产生很大的变化。普通话“意”yì 和“遇”yù 的分别,就在于前者不圆唇,后者圆唇。嘴唇的变化从外形很容易看出来,不像舌头那样在口腔内变化,不易直接观察。

二 元音的分类

1. 元音分类的标准

  为了便于说明不同音色的各个元音之间的差别,需要根据一定的标准对元音加以分类。无论用什么标准分类,事实上都不可能在各类元音之间画出一条明显的界限。这正像无法在不同颜色之间画出明显的界限一样,我们可以只把颜色分成“红、黄、蓝、白、黑”五类,也可以细分为十几类甚至二十几类,分类的目的不同,分类的粗细也就不一样,但是,无论分成多少类,各类颜色之间都是没有明显界限的。元音的分类也是可粗可细,不同类的元音用不同的字母符号来代表,如 a,i,u 等等,这些字母符号只是用来说明各类元音之间关系的一种标记,它们的内涵因分类粗细不同而有所不同,因此无法给这些代表元音的符号定出绝对的标准。语音学是专门研究语音的,对元音的分类自然需要细一些,所用的字母符号也会多一些,每个字母符号的内涵自然也就小一些。
  语音的生理、物理和听觉三个方面都可以作为元音分类的标准。听觉只是一种主观印象,从听觉感受到的元音的洪和细、长和短、强和弱、钝和响等等往往含有主观成分,很难据此对元音做出科学的分类和细致的描写。从元音的声学特性入手来分类自然非常精确,但过于细致,不便描述和调查记音。因此,在语音学中一般都采用生理分类法,也就是根据舌头的位置和嘴唇的形状对元音进行分类和描述,这种分类法不但简单可靠,而且还可以和发音动作直接联系在一起。
  前面已经谈到,元音的音色主要是由舌头和嘴唇的活动决定的,给元音分类,最方便的办法就是以舌头的位置和嘴唇的形状作为标准。舌头的位置可以根据舌头隆起的最高点在口腔中所处位置(简称“舌位”)的高低和前后这两个方面来确定,嘴唇的形状可以根据嘴唇的圆展来确定。这样,我们就为元音的分类定下了三项标准:
  (1)舌位的高低——舌 位高的是高元音,舌位低的是低元音;
  (2)舌位的前后——舌位前的是前元音,舌位后的是后元音;
  (3)嘴唇的圆展——嘴唇圆的是圆唇元音,嘴唇不圆的是不圆唇元音。
  任何一个元音都可以从这三个方面来描写。例如发 i 时,舌头隆起的最高点相当高,也相当靠前,同时嘴唇是平展的。因此,i 就是一个舌位高而前的不圆唇元音,这三方面的特点正可以描写出 i 这个字母所代表的元音音色。

2. 定位元音和元音舌位图

  在确定元音音色的三项标准中,嘴唇的活动只有圆展之分,而且是可以看得见的,比较容易描写。舌头的活动非常灵活,从外部又完全无法看见,要说明它在口腔中的位置就比较困难。我们以 a,i,u 为例比较一下发这三个元音时舌头在口腔中变化的情况,这三个元音正可以代表发元音时舌头在口腔中活动的范围,基本情况如图 2-2 所示意。

展开图片

图 2-2 中的黑点表示舌面隆起的最高点,是前后两个声腔的分界处,代表舌位。这三个元音舌位的高低和前后都不相同,形成一个不等边三角形,在图 2-2 中用虛线来表示。口腔的横向长,纵向短,开口处宽,舌根和软腭相对处窄,再加上舌头肌肉组织所起的牵制作用,使得舌位的高低和前后的关系互相影响。例如,i 和 u 都是高元音,但因为 u 同时是后元音,舌位受到舌头后缩的影响、就要比前元音 i 的高度略低。同样,舌头放低后,舌位前后移动的范围就变小,发 a 时虽然舌头也可以前后移动,但比 i 和 u 之间的舌位距离小得多。在发元音时舌位的活动范围实际上形成了一个不等边的四边形,这个四边形代表了发元音时舌头活动的外围极限,一般用图 2-3 的图形来表示图中四角的四个字母代表极限,一般用图 2-3 的图形来表示,图中四角的四个字母代表极限的四个点。这四个字母是国际上通行的国际音标所采用的,为了区别于其他拼音字母,按照国际习惯,国际音标的符号外加方括号,即[i][u][a][ɑ]等等。国际音标是国际语音学协会拟订的,经过一百多年的修订和补充,已成为国际上最通行的标写语音的符号。

展开图片

  在这四边形的外围极限之内,舌位可以任意变动,发出各种不同音色的元音来。为了便于描写发元音时舌位所处的位置,一般把舌头的纵向活动位置分为四度,即:高,半高,半低,低。前后元音各分四度,共计八个点,作为元音舌位定位的标尺,处在这八个点上的元音就称为定位元音或标准元音,国际音标用图 2-4 中符号来代表。图 2-4 中按四等分确定的八个点代表八个定位元音的舌位范围,有了这个范围,在确定和描写其他元音的舌位时就有了可供比较的客观依据。

展开图片

  舌位只能确定元音的高低和前后,并不能反映发元音时唇的状态。从原则上说,不管哪一种舌位的元音都可以有相对的圆唇元音和不圆唇元音。但是实际上前元音以不圆唇的较为常见,后元音则以圆唇的居多。八个定位元音正反映了这个特点,四个前元音都是不圆唇的,四个后元音除[ɑ]外都是圆唇的。圆唇的程度和舌位的高低密切相关,舌位越高唇越圆,随着舌位降低,圆唇的程度也降低,图 2-4 中舌位最低的定位元音[ɑ],就是不圆唇元音。图 2-5 列出常见国际音标元音舌位图。

展开图片

图 2-5 中舌位的高低分为高、半高、半低、低四度(前元音在四度之间增加[ɪ][ᴇ][æ]三个音标,实际是分为七度),舌位的前后分为前、央、后三度,圆唇和不圆唇并列,圆唇元音在线右,不圆唇在线左,共列出 21 个常用国际音标。下面逐一描写这 21 个元音的音值,并举出北京话的例字作为练习发音时的参考,北京话没有的元音,举常见汉语方言中的例字。
  [i]  前、高、不圆唇。北京“衣”[i]
  [e]  前、半高、不圆唇。北京“梅”[mei]
  [ɛ]  前、半低、不圆唇。北京”灭”[miɛ]
  [a]  前、低、不圆唇。北京“安”[an]
  [y]  前、高、圆唇。北京“鱼”[y]
  [ə]  央、中、不圆唇。北京“恩”[ən]
  [ᴀ]  央、低、不圆唇。北京“妈”[ᴀ]
  [ɤ]  后、半高、不圆唇。北京“鹅”[ɤ]
  [ɑ]  后、低、不圆唇。北京“汪”[uɑŋ]
  [u]  后、高、圆唇。北京“乌”[u]
  [o]  后、半高、圆唇。北京“窝”[uo]
  除上面列举的 21 个音标以外,在[y]和[ø]之间还可以有一个前、次高、圆唇元音[ʏ],在[u]和[o]之间还可以有一个后、次高、圆唇元音[ʊ],央元音还可以有高元音[ɨ]和[ʉ],在[ə]和[ɐ]之间还可以有央、半低、不圆唇元音[ɜ],因为不大常用,就不在图 2-5 中一一列举出来了。为了精确地表示出舌位和唇形的细微变化,在必要的时候还可以给音标加上附加符号,主要有以下七种:
   符号    意义     
    ̝    舌位略高  [e̝][o̝]
    ̞    舌位略低  [e̞][o̞]
    ̟    舌位略前  [u̟][ə̟]
    ̠    舌位略后  [u̠][ə̠]
    ̈    舌位偏央  [ë][ö]
    ̹    圆唇度增  [o̹][y̹]
    ̜    圆唇度减  [o̜][y̜]

3. 舌尖元音、卷舌元音和鼻化元音

  发一般元音时,舌肌用力比较均衡。还有一种主要依靠舌尖用力的元音,称为“舌尖元音”。和舌尖元音相对,一般元音就称为舌面元音。北京话里 zi,ci,si(资、磁、思)和 zhi,chi,shi(知、吃、诗)里的 i 就都是舌尖元音,和舌面元音[i]读音的区别是非常明显的。zi,ci,si 里的 i 国际音标用[ɿ]来表示,zhi,chi,shi 里的 i 国际音标用[ʅ]来表示。
  舌尖元音发音时,舌的中线呈马鞍形,实际上有两个舌高点,第一个在舌尖部分,第二个在舌面后部。[ɿ]的第一舌高点比[ʅ]靠前,第二舌高点又比[ʅ]靠后,从图 2-6 中可以看出这种区别:一般根据舌尖位置的前后,称[ɿ]为舌尖前元音,[ʅ]为舌尖后元音。

展开图片

  发舌尖元音时不只声带颤动,而且声道并不封闭产生摩擦,属于开放型发音,具有元音的特点,并不是前面辅音的延长,在汉语一些方言里,舌尖元音还可以和不同部位的辅音相配,例如安徽合肥、山西汾阳都有[mɿ](米),[tɿ](低)之类的声音,就更不能认为是前面辅音的延长了。
  [ɿ]和[ʅ]都是不圆唇舌尖元音,和它相对的圆唇舌尖元音是[ʮ]和[ʯ],浏如,苏州“诗”[sʮ],湖北麻城“鱼”[ʯ]。这样,舌尖元音就一共有四个:
           不圆唇   圆唇
    舌尖前元音  [ɿ]   [ʮ]
    舌尖后元音  [ʅ]   [ʯ]
  发舌面元音的同时舌尖问硬腭翘起,就形成了卷舌元音。这种由舌尖翘起形成的卷舌作用可以用倒写的 r 来表示,如[aɹ]或[əɹ],也可以合并成一个音标,如[ᶏ][ɚ],为了书写和印刷方便,一般写成[ar][ər]等等,这个[r]只表示前面元音的卷舌作用,并不独立发音。
  卷舌元音在汉语方言里很常见,大都出现在所谓“儿化韵”里,例如北京话“花儿 huār,歌儿 gēr,兔儿 tùr”等等都要读成卷舌元音,儿化韵变化相当复杂,在第六章内再详细介绍。除儿化韵外,只有“儿、耳、二、而”等少数几个读 er 的字在一些方言里必须读成卷舌央元音[ər]。在北京话里,读[ər]的字开始时舌位比较低,随着卷舌,舌位也略略上升,产生一个很小的动程,这动程在去声字中比较明显,例如“二 èr”,严格一些就应该标成[ɐər]或[ʌər]。
  美国英语中的卷舌元音也比较多,这是英美英语的一个明显差别,例如 sir(先生),poor(穷),board(板),hard(硬)这些词,元音后面紧跟着一个 r,英国人并不把这 r 读出来,大部分美国人都把这些元音读成卷舌元音。
  如果在发元音的同时软腭垂下来,打开鼻腔通路,使声音不但从口腔出去,也从鼻腔出去,形成两个共鸣腔,元音的音色发生变化,带上了鼻音色采,成为鼻化元音(参看图 1-21)。国际音标用附加符号“”加在元音的上面表示鼻化,如[ã][ũ][ĩ]等等。
  如果在发元音的同时软腭垂下来,打开鼻腔通路,使声音不但从口腔出去,也从鼻腔出去,形成两个共鸣腔,元音的音色发生变化,带上了鼻音色采,成为鼻化元音(参看图 1-21)。国际音标用附加符号“
”加在元音的上面表示鼻化,如[ã][ũ][ĩ]等等。
  汉语许多方言有鼻化元音。北京话的鼻化元音只和卷舌元音同时出现,即只出现在儿化韵中,如“缝儿”fèngr读[fə̃r]。
  法语是鼻化元音相当丰富的语言。鼻化元音成为法语突出的语音特色。
  元音可以在开始发出时就产生鼻化,也可以在发出后不久软腭才开始下垂产生鼻化。后一种叫做半鼻化元音,在需要严格区别时,可以把鼻化符号移到元音之后,表示鼻化产生较晚。不少上海人把“忙”读成[ma],南京也有不少人把“烟”读成[ie],都属于半鼻化元音。

4. 元音的长短和紧松