声音的本质(音调、音量、音色) #
- 音调:频率,声波的频率,即声音的音调,人类听觉的频率(音调) 范围为 20Hz—20KHz
- 音量:振幅,声波的响度,通俗的讲就是声音的高低,一般男生的声音振幅(响度) 大于女生
- 音色:波形,与材质有关,谐波(不规则的正弦波)
数字音频处理过程 #
模拟信号 -> 采样 -> 量化 -> 编码 -> 数字信号
采样 #
所谓的采样就是只在时间轴上对信号进行数字化。根据奈奎斯特定律(也称作采样定律),按照比声音最高频率的 2 倍以上进行采样。
人类听觉的频率(音调) 范围为 20Hz–20KHz。所以至少要大于 40KHz。
采样频率一般为 44.1kHz,这样可保证声音达到 20kHz 也能被数字化。
44.1kHz 就是代表 1 秒会采样 44100 次。
量化 #
具体每个采样又该如何表示呢?这就涉及到量化。量化是指在幅度轴上对信号进行数字化。如果用 16 比特位的二进制信号来表示一个采样,那么一个采样所表示的范围即为 [-32768, 32767] 。
编码 #
每一个量化都是一个采样,将这么多采样进行存储就叫做编码。
所谓编码,就是按照一定的格式记录采样和量化后的数字数据,比如顺序存储或者压缩存储,等等。
通常所说的音频裸数据格式就是脉冲编码调制(PCM)数据。
描述一段 PCM 数据通常需要以下几个概念:量化格式(位深, 通常 16bit) 、采样率、声道数
对于声音格式,还有一个概念用来描述它的大小,即比特率,即 1 秒内的比特数目,用来衡量音频数据单位时间内的容量大小。