音频基础 · AI 炼金术

模拟信号 -> 采样 -> 量化 -> 编码 -> 数字信号

所谓的采样就是只在时间轴上对信号进行数字化。根据奈奎斯特定律（也称作采样定律），按照比声音最高频率的 2 倍以上进行采样。

人类听觉的频率（音调）范围为 20Hz–20KHz。所以至少要大于 40KHz。

采样频率一般为 44.1kHz，这样可保证声音达到 20kHz 也能被数字化。

44.1kHz 就是代表 1 秒会采样 44100 次。

具体每个采样又该如何表示呢？这就涉及到量化。量化是指在幅度轴上对信号进行数字化。如果用 16 比特位的二进制信号来表示一个采样，那么一个采样所表示的范围即为 [-32768， 32767] 。

每一个量化都是一个采样，将这么多采样进行存储就叫做编码。

所谓编码，就是按照一定的格式记录采样和量化后的数字数据，比如顺序存储或者压缩存储，等等。

通常所说的音频裸数据格式就是脉冲编码调制（PCM）数据。

描述一段 PCM 数据通常需要以下几个概念：量化格式（位深，通常 16bit）、采样率、声道数

对于声音格式，还有一个概念用来描述它的大小，即比特率，即 1 秒内的比特数目，用来衡量音频数据单位时间内的容量大小。