录音制作中声音的采样及分辨率怎么区分！

日期：2022-11-26

声音采样录音

录音制作中声音的采样及分辨率怎么区分！

声音采样是指录音设备在单位时间内对模拟信号采样的多少，声音采样频率越高，机械波的波形就越真实越自然。在当今的主流采集卡上，声音采样频率一般共分为11025Hz、22050Hz、24000Hz、44100Hz、48000Hz五个等级，11025Hz能达到AM调幅广播的声音品质，而22050Hz和24000HZ能达到FM调频广播的声音品质，44100Hz则是理论上的CD音质界限，48000Hz则更加精确一些。

声音采样率/以上采样频率

我们经常听到的第一个术语是声音采样率或声音采样频率，两者指的是同一件事。你可能遇到过的一些数值是8kHz、44.1kHz和48kHz。究竟什么是音频文件的声音采样率？声音采样率是指每秒钟记录的音频样本数。它是以每秒的样本或赫兹（缩写为Hz或kHz，1kHz为1000Hz）来衡量。一个音频样本只是一个数字，代表在一个特定时间点的测量声波值。非常重要的一点是，这些样本是在一秒钟内时间上相等的时刻采集的。例如，如果采样率是8000赫兹，那么在一秒钟内有8000个采样是不够的；它们必须在一秒钟的1/8000时间内准确地被采集。在这种情况下，1/8000的数字被称为采样间隔（以秒为单位），而采样率只是该间隔的乘法倒数。

声音采样率类似于视频的帧率或FPS（每秒帧数）测量。视频只是一系列的图片，在这里通常称为 "帧"，非常快速地背对背显示，给人以连续不间断运动或移动的错觉（至少对我们人类来说）。虽然音频采样率和视频帧率是相似的，但在每一个中保证可用性的通常的最低数字是非常不同的。对于视频来说，为了保证运动的准确描述，每秒至少需要24帧；少于这个数字，运动可能会显得不流畅，连续不间断运动的错觉也无法保持。这一点在帧与帧之间发生的运动越多时尤其适用。此外，每秒1或2帧的视频可能会有 "瞬间 "事件，保证在帧之间被错过。

对于音频来说，要明确地表示英语语音，每秒的最小采样数是8000赫兹。由于各种原因，使用低于这个数字的采样率会导致语音无法被理解，其中一个原因是相似的话语将无法相互区分。较低的采样率会混淆音素或语言中的声音，这些声音具有显著的高频能量；例如，在5000赫兹下，很难将/s/与/sh/或/f/区分开来。既然我们提到了视频帧，另一个值得详细说明的术语是音频帧。虽然音频样本和音频帧都是以赫兹为单位，但它们并不是一回事。一个音频帧是来自一个或多个音频通道的一个时间实例的音频样本组。

最常见的采样率值是前面提到的8kHz（最常见于电话通信）、44.1kHz（最常见于音乐CD）和48kHz（最常见于电影的音轨）。较低的采样率意味着每秒钟的采样数较少，这反过来又意味着较少的音频数据，因为有较少的采样点来表示音频的数量。采样率的选择取决于需要采集哪些声学伪影。一些声学人工制品如语音语调需要的采样率比声学人工制品如音乐CD中的音乐曲调要低。值得注意的是，更高的采样率需要更多的存储空间和处理能力来处理，尽管这在过去数字存储和处理能力是首要考虑的情况下，现在可能不是那么大的问题。

声音采样深度/声音采样精度/声音采样大小

除了声音采样率，也就是我们有多少个音频的数据点，还有声音采样深度。以每个样本的比特为单位，样本深度（也称为样本精度或样本大小）是音频文件或音频流的第二个重要属性，它代表了每个样本的细节水平，或 "质量"。正如我们上面提到的，每个音频样本只是一个数字，虽然有很多数字有助于表示音频，但你也需要每个单独数字的范围或 "质量 "足够大，以准确表示每个样本或数据点。“质量 "是什么意思？对于一个音频样本来说，它只是意味着该音频样本可以代表更高的振幅范围。8比特的采样深度意味着我们有2^8=256个不同的振幅，而16比特的采样深度意味着我们有2^16=65，536个不同的振幅，以此类推，采样深度更高。电话音频最常见的采样深度是16比特和32比特。在数字录音中，有越多不同的振幅，数字录音听起来就越接近原声事件。

以上就是关于录音制作中声音的采样及分辨率怎么区分的详细介绍。

上一篇>> 音频采样，声音采集者是怎么工作的？

下一篇>> 如何简单形象的理解：信号采样中，给信号采样，采样频率！