为什么人可以只通过单一耳膜的震动听到不同音色?

知乎日报 张越 15℃ 评论

为什么人可以只通过单一耳膜的震动听到不同音色?

图片:

如果人类的耳朵是通过耳膜接收声音,为什么可以听到不同音色的声音,按道理来说耳膜的振动只有一种音色?

张越,Brain and Hearing

谢邀!这个问题需要解释一下两个概念~

  1. 声波在碰到耳朵之前已经包含了能产生不同音色(timbre)的各类物理特征:

世界上所有的声音都来自空气分子/其它介质的震动。大家都知道,声音/震动有音量的大小之分,有频率的高低之分,但这两点并不足以解释我们所听到的声音的丰富性。比如,一个吉他和一个钢琴,弹同一个音用一样的强度,或者两个人用一样的音量发同一个声音,闭着眼睛还是能分得清哪个是哪个。

这是因为其实声音是个多方面的东西,大家就简单粗暴地把音色定义为声音除了音高和音量以外其它影响人类听觉的特征(我并没有开玩笑)~

但是不管有多少种音色,所有的变化都来自于三个维度:频率,强度和时间。

下面,就请来玩大家来找茬~

这是借用一个 demo(地址于文下)里录的六种乐器弹奏的声音频谱(spectrogram)。看起来似乎很复杂,但是使用一般的录音分析软件就可以生成,是使用不同的时间窗(time window)和过滤器(filter)分析出来的声波,也就是声音的'原形'~

先从从静态的角度来看,如果在上图中‘截取’一个时间点(x 轴),会发现每一‘帧’的声音包含了多个频率段(y 轴)并且每个频率段都有不同的强度(从蓝色到黄色)。这种频率段的能量分布(Spectral center of gravity,spectral tilt)常会引起音色上'浑浊'到‘亮’的变化,高频的能量多会让人觉得声音比较亮。一般让人感觉‘自然’的声音都会在高频逐渐能量减弱(rolloff),所以如果人工制造的声音没有这个特征,会让人感觉有些 buzzy。

此外,图上方的三个声音都是有谐波的(harmonic),在基频的整数倍的频率段都会出现共振峰(formants)(乐理上叫泛音)。比如,左上的小提琴的声音大概在 500Hz, 1000Hz,1500Hz 等等的位置都有很集中的能量(黄色条条)。这些共振峰的位置和宽度(formants structure)会影响到感觉上声音的音高(pitch)和音质。左上的小提琴更中上的喇叭比共振峰较窄,可能对应了听感上小提琴‘细致’的感觉。右上的吉他共振峰较多,可能对应了声音比较‘自然’的感觉。机器制造声音时也同样会注意控制共振峰的宽度,不然不过于窄的共振峰会有一种不自然的感觉。

那么图下方的三个声音都是没有谐波的,在能量分布上就更为复杂。不同的组合会影响到声音不同的音色,不详述(不然这个回答就写不完了~).

再从动态的角度来看,也就是看每一‘帧’在不同的时间点的变化。那这个可能的组合就更多了。比如,声音能量的从零到开始需要的时间(attack),从结束到完全没有震动需要的时间(decay),共振峰的移动(formants dynamics),从谐波到非谐波的转变等,都会影响到对音色的感觉。

总结一下,看起来单纯的声音震动其实千变万化可以有很多组合。但是并不是所有的物理上组合都会造成音色的不同,因为音色最终还是主观的感觉。所以就说到第二点:

2. 声波在碰到耳朵之后,外耳和中耳能够(比较)不失真地传递这些震动给内耳,让耳蜗可以从时间,频率和强度三个维度分析声音并传输给听觉神经再传给大脑。

从空气分子的震动到大脑感知,需要经过很多步骤,不光是位于外耳的耳膜。

震动从外耳到中耳一步步被‘接力’,最后到达内耳的时候虽然已经被转换成了动能并且有了点改变(比如耳廓和耳道都对声波有频谱能量的改变),但是震动的‘内容’没有本质的改变。内耳耳蜗在中耳小骨的震动‘捶打’下有点像声音分析软件,分析出震动在频率,能量和时间上的特征。只是,这个分析的过程不是用傅立叶函数,而是依赖基底膜(basilar membrane)在不同位置有着不同的宽度和厚度,因此共振的频率也不一样这一点来‘分解’声音(对耳蜗机制感兴趣的同学可以先看我的另一篇回答我们如何区分高频声音的响度? - 张越的回答 - 知乎 zhihu.com/question/3732,等着我以后配图详聊~ )。

这样,会产生音色变化的物理特征就这样被传递到听觉神经和大脑,让人能从微小的空气分子的震动中听到美妙的世界~这样想来,还有一点一花一世界的禅意~

图源:

biostat.jhsph.edu/~riri

转载请注明:微图摘 » 为什么人可以只通过单一耳膜的震动听到不同音色?

喜欢 (0)or分享 (0)
发表我的评论