首页 单曲 套曲 视频 工具 音乐人

声音采样判断两段声音是否一致需要测量哪些要素?

分类: 乐理基础

日期:2022-11-25

声音采样判断两段声音是否一致需要测量哪些要素?

声音四要素是:音强、音高、音色和波形。两段声音是一致的测度有很多种,比如欧拉距离,KL距离,甚至马拉诺比斯距离,采用不同的测度方式得到的结果都是不一样的。其次,采用什么样的信号表示,声音可以有时域表示(时域信号),可以有时频域表示(短时傅里叶变换),甚至可以有变窗长的时频分析方法。一般情况,使用欧拉距离在时频域比较是比较可靠地。振幅,频率,可能还有相位,人耳的话,好像对相位不敏感。显然重放设备也要求有较好的瞬态跟随能力,不然就会引起乐音自然包络的畸变。



考虑到不同声音采样率的不同,首先做统一的 SRC 处理,将两段音源转换至同一采样率下;从转换后的两段数据中,分别提取出两份疑似相同的片段,并根据实际情况对两份采样进行预处理,例如低通滤波(以减小有损压缩对高频成分的影响)或直接将这两份采样转换为动态功率谱形式(也可以理解为将该采样数据直接转换至频域下);对这两份数据进行相关性计算,通过相关系数计算结果判别是否为同一录音。提到的反相相加不失为一种应用上简单易行的方法,但如果要追求更加严格且有说服力的结果的话,一个接近 1(亦或 -1)的相关系数计算结果绝对可以胜任此工作;而检测MD5码则不可行,因为现实中遇到的情况往往会很复杂,绝非只要检测看每个比特是否一致就能判断的——例如两份从同一张CD上转录出的文件,若是出现数字电平不一致,声音采样率不一致,比特率不一致,任意一种可能,最后都无法得到两份能通过 MD5 校验的文件。



第二种可能:有哪些声音中的因素,即使改变了,人听上去还是觉得这两段声音是一样的;直接说:相位。并不是说相位因素人耳绝对听不出来,只是说相位因素对人的听觉系统来说非常不敏感(相对于人的视觉系统来说),尤其是从声音文件上即存在的微量的相位差,对人耳来说很难发现,但是这些相位差对采样数据来说则会造成巨大的差别,以至于直接套用上一种做法时,计算时域形式下的相关系数计算结果会不靠谱。靠动态功率谱形式的数据来按照上述方法处理的话,理论上讲结果会相对靠谱——因为其所受相位因素的影响极小。


音乐采样是指录音设备在单位时间内对模拟信号采样的多少,音乐采样器频率越高,机械波的波形就越真实越自然。在当今的主流采集卡上,音乐采样器频率一般共分为11025Hz、22050Hz、24000Hz、44100Hz、48000Hz五个等级,11025Hz能达到AM调幅广播的声音品质,而22050Hz和24000HZ能达到FM调频广播的声音品质,44100Hz则是理论上的CD音质界限,48000Hz则更加精确一些。



声波其实是一种机械波,因此也有波长和振幅的特征,波长对应于时间轴线,振幅对应于采样值轴线。波是无限光滑的,弦线可以看成由无数点组成,由于存储空间是相对有限的,数字编码过程中,必须对弦线的点进行采样。采样的过程就是抽取某点的采样值,很显然,在单位时间中内抽取的点越多,获取得波长信息更丰富,为了复原波形,一个周期中,必须有至少2个点的采样,人耳能够感觉到的最低波长为1.7cm,即20000Hz,因此要满足人耳的听觉要求,则1s采样至少40000次,用40000Hz(40kHz)表达,这个40kHz就是采样率。我们常见的CD,音乐采样器的频率为44.1kHz。



声音采集过程中视频和音频同步是非常重要的,光有波长信息是不够的,我们还必须获得该波长的能量值并量化,用于表示信号强度。量化电平数为2的整数次幂,我们常见的CD位16级的采样大小,即2的4次方。采样大小相对采样率更难理解,因为要显得抽象点,举个简单例子:假设对一个波进行8次采样,采样点分别对应的能量值分别为A1-A8,但我们只使用2bit的采样大小,结果我们只能保留A1-A8中4个点的值而舍弃另外4个。如果我们进行3bit的采样大小,则刚好记录下8个点的所有信息。采样率和采样大小的值越大,记录的波形更接近原始信号。

以上就是关于声音采样判断两段声音是否一致需要测量哪些要素的详细介绍。

资讯发布者

一切为了电音
关注TA

相关百科

Fruity slicer

Fruity slicer(水果切片器)插件是FL Studio中一个比较特殊的采样器,它可以将一段采样切成多段,然后使用MIDI信号,控制播放其中的一段。

音乐采样器

借助于现代录音技术,我们可以将真实的乐器(钢琴、吉他、贝司、鼓等)演奏的声音录制,也可以将自然环境的声音录制,然后在录制的声音取出特征的样本保存到数字内存中。通过采样器触发这些采样的声音,可以随时重组还原真实的演奏效果。一个采样器通常还包含滤波、效果、调制、低频振荡等类似于合成器的功能,可以改变采样的波形特征从而演奏出不一样的声音效果。

声音采样

声音采样就是把模拟音频转成数字音频的过程,所用到的主要设备便是模拟/数字转换器(Analog to Digital Converter,即ADC,与之对应的是数/模转换器,即DAC)。采样的过程实际上是将通常的模拟音频信号的电信号转换成二进制码0和1,这些0和1便构成了数字音频文件。采样的频率越大则音质越有保证。由于采样频率一定要高于录制的最高频率的两倍才不会产生失真,而人类的听力范围是20Hz~20KHz,所以采样频率至少得是20k×2=40KHz,才能保证不产生低频失真,这也是CD音质采用44.1KHz(稍高于40kHz是为了留有余地)的原因。

DJ硬件设备

DJ硬件设备是加快速度时可设定音质保持不变的一种音乐设备。

Audiolab

引领全球电子消费类产品的卓越代表傲立Audiolab在成立的40年历史中它重新确立了英国在国际消费电子产品的世界领先地位。并于上世纪90年代傲立Audiolab成为了世界F1赛车Mclaren麦克拉伦车队唯一认可及收购的高端音响品牌,进入21世纪由沃夫德尔母公司IAG集团耗巨资将其品牌引进并收购于集团旗下。同时沃夫德尔科技公司也优先获得了Audiolab傲立国内独家代理商。