跳过正文
  1. Posts/
  2. 算法部分/

音频基础

··595 字·2 分钟
算法部分
蚂蚁无双
作者
蚂蚁无双
AI 与生活
目录

声音的本质(音调、音量、音色)
#

  • 音调:频率,声波的频率,即声音的音调,人类听觉的频率(音调) 范围为 20Hz—20KHz
  • 音量:振幅,声波的响度,通俗的讲就是声音的高低,一般男生的声音振幅(响度) 大于女生
  • 音色:波形,与材质有关,谐波(不规则的正弦波)

数字音频处理过程
#

模拟信号 -> 采样 -> 量化 -> 编码 -> 数字信号

image.png

采样
#

所谓的采样就是只在时间轴上对信号进行数字化。根据奈奎斯特定律(也称作采样定律),按照比声音最高频率的 2 倍以上进行采样。

人类听觉的频率(音调) 范围为 20Hz–20KHz。所以至少要大于 40KHz。

采样频率一般为 44.1kHz,这样可保证声音达到 20kHz 也能被数字化。

44.1kHz 就是代表 1 秒会采样 44100 次。

量化
#

具体每个采样又该如何表示呢?这就涉及到量化。量化是指在幅度轴上对信号进行数字化。如果用 16 比特位的二进制信号来表示一个采样,那么一个采样所表示的范围即为 [-32768, 32767] 。

编码
#

每一个量化都是一个采样,将这么多采样进行存储就叫做编码。

所谓编码,就是按照一定的格式记录采样和量化后的数字数据,比如顺序存储或者压缩存储,等等。

通常所说的音频裸数据格式就是脉冲编码调制(PCM)数据。

描述一段 PCM 数据通常需要以下几个概念:量化格式(位深, 通常 16bit) 、采样率、声道数

对于声音格式,还有一个概念用来描述它的大小,即比特率,即 1 秒内的比特数目,用来衡量音频数据单位时间内的容量大小。

参考文档
#

音频基础知识