关于响度的拾遗

声音设计

各位Wwise社区的同窗们,大家好,我叫张禹,来自游族网络,是音效生产机器上的一颗螺丝钉。自2006ITU-R BS 1770诞生至今已13年有余,之前有很多行业前辈写过与响度有关的文章,在此就不整篇大段的繁文赘述了,今天我以问答的形式做个关于响度的知识点拾遗,希望能对大家的工作有所帮助。

响度与响度级:

在使用纯音条件下的等响曲线研究人耳的听觉规律时,引入了“响度级(LN)的概念”,响度级为响度的相对量,我们将最终读数等于1KHz纯音一样响时所对应的声压级称为“响度级”,单位是方(phon)。“方”反应了人耳主观感受,但并不方便计量,又引入了响度单位宋(sone),其定义是:声压级定为40dB1KHz纯音主观响度为1宋。响度级每增加10 phon ,响度增加一倍。

我们常说的dB是个什么单位?

分贝是一个对数单位(logarithmic unit,它并不能直接用来描述一个物理量的大小或者多少,它表示的是两个相同单位物理量的比值。它是声级测量中最常用的单位,通常表示两个声音信号或电力信号在功率或强度方面的相对差别,相当于两个水平的比率的常用对数的十倍。在"dB"这个名称中,小写的d代表英文decibel即分贝,而大写的B代表Bel即贝尔,采用小写d和大写B主要为了说明分贝和贝尔之间的关系为1:10;即1分贝等于十分之一贝尔。dB是单位统称,在表述不同领域问题时,又以后缀的方式加以区别。

dBSPL较为常见,它表达的意思是?

"SPL"是英文“Sound Pressure Levels”声压级的简写。从本质上讲,声音是一种能量波,不同长度的波产生不同的频率,不同“强度”的波作用于话筒膜片、人耳等“受迫性”收音装置,便会被辨识为大小各异的声音。这种声音强度产生的“压迫力”就是我们常说的“声压”。声压与声音大小的关系如下图所示:

image001

其中I是声强(单位W/m²),P是声压(单位Pascal), ρC是空气阻力系数,ρC=400瑞利(N·s/m3)。

dBFS是一个什么单位?如何解释?

是数字音频信号电平单位。Full Scale0 dBFS的位置。所谓满刻度指的是转换器可能达到的数字过载之前的最大可编码模拟信号电平,作为最大音频信号的编码基准值。数字音频信号幅度相对于这个最大编码所代表的幅度之比,即为满刻度相对电平。因为设置了最大基准值,所以所显示的电平值都为负。

当我们在讨论响度的时候,实际是在讨论什么?

我们在讨论的内容是:声音强度在“(人)主观评价”中的集中体现。

影响声音强度的客观物理特性是什么?

信号电平、频率特性、持续时间、声场特性。

影响人对声音强度感知的主观特性是什么?

个体的生理特性、心理特性、听音环境、文化背景、性格差异。

除响度外还有哪些心理声学参数?

尖锐度:尖锐度是描述高频成分在声音频谱中所占比例的参数,反映声音信号的刺耳程度。其单位是acum,规定中心频率为1 kHz、带宽为160 Hz的60 dB的窄带噪声尖锐度为1 acum。

波动度:波动度反映了人耳主观感受到的声音响亮起伏程度,其单位是vacil,规定60 dB,1 kHz的纯音在调制频率为4 kHz的100%调幅声作用下产生的波动度为1 vacil。

粗糙度:粗糙度是描述声音信号调制程度的心理声学参数,单位是asper。规定60 dB,1 kHz的纯音在调制频率为70 Hz的100%调幅声作用下产生的粗糙度为1 asper。

烦燥度(PA):由响度与以上三个分量构成,是人对声音总体感觉的定量描述,是一个无量纲值,数值越大越烦躁。

心理声学参数是描述人对声音的主观感受差别程度的客观物理量,可以定量反映听觉感受的差别,并消除个体影响。响度表现对心理声学的影响极大,但在进行声音主观评价时,还需要与其它三项参数进行综合考虑。

听音过程中的主观与客观量是?

一般的来说,信号电平是客观的,响度是主观的。

人在评价声音时主客关系是?

声音是客观存在的,人在听音后的反应是主观评价。

当代的响度测量技术是如何催生的?

20世纪末至今,计算机技术实现了跨越式发展,以DSP技术为代表的快速傅里叶变换(FFT)在实践中被大量运用后,为实现响度测量具提供了技术基底。这一时期诞生了Leq(RLB:Revised Low-frequency B-curve weighting )、TC LARM、TC HEIMDAL等优秀的响度算法,其中Leq(RLB)算法被ITU吸纳作为了1770案技术基底的一部分。

ITU是一个什么组织,干嘛的?

ITU:国际电信联盟。联合国下辖的重要国际组织,上管卫星,下管无线电,没事儿还兼顾一下电声学领域建设。PS:很多学无线电和电声学的人之所以能成为一流的声音创作者,就是因为他们比谁都懂物理中的“波”是一个什么东西。ITU提出的响度单位是LKFS:(Loudness K-weighted relative to full scale),中文名: K计权下相对于标称满刻度的响度单位。

EBU是一个什么组织,干嘛的?

EBU全称(European Broadcasting Union)欧洲广播联盟,是为全欧广电系统制定技术标准的行业联合会。我国广电部门早期的一些技术指标,广泛参考欧洲技术。EBU-R128案提出的响度单位是LUFS:(Loudness units relative to full scale),其意义等同于LKFS,表示参考响度之间的差值,1 LU等于1 dB。

ITU为何要推出ITU-R BS 1770标准?

一、音频电平的大小与人耳感知的声音强弱并不是简单的线性关系。

二、VU(Volume Unit)、PPM、RMS等,与其他常规性峰值表均不能体现主观响度。

三、VU(Volume Unit)VU(Volume Unit)、PPM、RMS与其他常规性峰值表不能准确测量信号的实际峰值电平

四、需有一个共“通”的标准,方可平衡不同节目的响度。

五、一个数字信号的峰值电平可能大于采样信号,所以需要更科学的方案完成全域监测。

六、除1770案之外,ITU还推出了ITU-R BS.1864《数字电视节目国际交换中响度的操作方法》也对节目的目标响度等问题提出了建议,从内容上讲,1864案是1770标准的实践补充。

为什么说VU表不适合作为监控进行声音创作指导?

VU表自1939年诞生至今,已过80余年,用层级的技术来处理当下的问题,显得有些力不从心。VU 表在工作时,会产生读数低于实际信号峰值的情况,这是由仪表的积分时间特性所决定的。VU 表指针移动相对较慢,是一种准平均值特性仪表,不能准确的指示瞬时峰值。所以使用VU表进行声音监控时,信号峰值电平通常比指示值高 6dB~12dB

为什么说RMS表为何不适合作为主监控进行声音创作指导?

从波形的象形学角度来分析,RMS测量适用于波形形变不明显,且周期较为固定的波,这是因为;值是信号电压的度量,所以,它并不会站在人耳朵、听觉神经、大脑转译系统的角度上去替创作者思考问题。简而言之,RMS的反馈过于客观,以至于会出现两路信号同RMS值,响度却不同的异象,这主要是因为人对不同频率的反应不同而导致的。

ITU-R BS 1770标准中有哪些技术参数?

一、响度单位(LU)是响度仪表的标度单位,以响度单位表示的节目值,代表节目到达0 LU所需要的衰减或增益0 dB,例如-20 LU到达0 LU需要20 dB的增益。

二、瞬时响度(Momentary Loudness)是以400 ms的时间常数通过一阶无限脉冲响应(IIR)低通滤波器的非选通响度。

三、短时响度(Short-term Loudness):是以3秒为测量间进行积分计算的非选通响度。【选通:满足一定的技参,进入工作】

四、节目响度(Program Loudness):整段节目时间内的长期整体响度值。以400 ms的积分时间,75%重叠计算方法,-70 LKFS的绝对门限和-10 LU的相对门限进行测量。

五、响度范围(Loudness Range-LRA):响度变化的量化值。是去除最低10%和最高5%的响度计量值后得出的动态范围。响度最低的10%可能是静场或者空白声带。最高的5%可能是高能瞬态,不能代表正常的响度数据。

六、真实峰值(Ture Peak-dBTP):真实峰值电平。是指信号在连续时域中的最大峰值电平,而这是相对于“采样”峰值电平而言的。因为系统存在时间窗口,所以真实的峰值有可能出现在时间窗口与下一个窗口交割的间歇期内。所以,通常情况下,在 48 kHz 采样率、4 倍过采样计量的响度表上,需保留1 dB的峰值储备来防止可能出现的 0.5 dB的低估值。我国于2014年12月开始实施的GY/T 282-2014 《数字电视节目平均响度和真峰值音频电平技术要求》中规定:整个节目的最大真峰值音频电平应不超过 -2 dBTP。

七、累积响度(Integrated Loudness)累积响度测量是从起始点到结束点的平均响度。约等于节目响度。

ITU-R BS 1770标准中的“K计权LRB滤波是如何介入工作的?

一、K计权(搁架式)滤波:从1 kHz 3 kHz范围内增益逐渐提升至 4 dB3 kHz以上保持增益不变,作用是模拟头部和耳廓的散射。

image003

二、RLB滤波,低频修正的B曲线(RLB:Revised Low-frequency B-curve weighting )滤波器,本质是一个高通(低切)滤波器,主要反映人耳对于低频部分的不敏感性。

image004

image005

ITU-R BS 1770在进行信号分析时,为何要设置双重门限?

为了计算有效声级,1770使用了绝对阈限和相对阈限的方法计算每个声道的主体响度部分,同时分声道加权。该算法设置的阈限包括绝对阈限和相对阈限,绝对阈限设置为 -70 LKFS ( “LKFS”这一单位等同于“dB”,信号增加1 dB 相当于响度增加 1 LKFS),这部分作用是将低于阈限值的部分从响度计算范围中舍掉。相对阈限设置为-10 LKFS ,即为;在计算绝对阈限的基础上,再将计算结果低于当前响度 10 LKFS 的部分舍掉。这步的目的是将声音中静音部分和本底噪音部分去除。设置阈限的目的是保证参与响度计算的部分为有效部分。

ITU-R BS 1770标准之外,还有哪些标准?

响度标准
整体响度
(LKFS/LUFS)
    允许误差
  (+/-LU)
最大真峰值
   (dBTP)
所属国家
中文名称
ITU-R BS1770
-24
2
-2
国际
音频节目响度测量算法和真实峰值电平
EBU-R128
-23
0.5
-1
欧盟
音频信号的节目响度标准化与可允许的最大真实峰值电平
ATSC A/85
-24
2
-2
美国
建立和保持数字电视音频响度技术
AGCOM
-24
0.5
-2
意大利
 
OP-59
-24
1
-2
澳大利亚
 
ARIB TR-B32
-24
2
-1
日本
日本电波产业协会关于TR-B32-数字电视节目响度的操作指南
GY/T282-2014
-24
2
-2
中国
数字电视节目平均响度和真峰值音频电平技术要求

我国在响度标准中做出的研究与探讨:

首先强调,任何说中国没有响度标准的说法都是有失偏颇的。准确的说,在游戏音频开发范畴内,我们还没有明确的、经过论证的、具备执行性的响度标准。因为我们的时间用于开发相对较多,调研相对较少。实践相对较多,探讨相对较少。实际工作中往往是你做你的,我做我的。当研究工作的采样率不高,就不要提量化标准了。所以现阶段,我们参考别人的标准,总结自己的经验,是一条可行的探索之路。

调研资料:

①:中央台的调研显示,历史节目响度平均值-27.4 LKFS仅针对电视领域。

②:根据单位换算:GY/T192-2003要求,0 dBFS对应24 dBU(dBu是分贝的电压表现情况,选择的基准电压为0.775 V)。

③:央视测量2013年的电视节目,最大TruePeak平均为-5.7 dBTP,选择-5 dBTP则可能丧失节目应有的峰值余量,会对动态范围产生影响,则定位于-2 dBTP

④:提出最大响度偏移量的问题:最大短时响度(窗口期3秒)与节目响度的响度差,平均值是3.5 LKFS。斯诺克比赛为7.1 LKFS,栏目宣传片为1.1 LKFS。

⑤:2013年10月,央视调研显示;一套的322 条节目中有 123条节目的平均响度值满足 -24 LKFS±2 LU,占节目总量的 40% ;322 条节目中有 305 条的最大真峰值电平不超过 -2 dBTP,占节目总量的95%。

现行响度标准下关于声处理的若干思考:

一、正确且固定音量的监听。固定音量的监听是保证声音效果响度一致的基础。当人习惯了某一音量的监听之后,不需要过多借助响度表,过大或过小的音量自然会引起创作者的不适。所以在创作之前,校准监听是必要的,而在制作过程中调整监听音量是不可取的。

二、侧重关注,选对参考。游戏中有很多时值较短的音效,如UI界面类,UI点击类,提示类。从波形的象形角度观察,其峰值持续时间短,动态起伏较大。针对这类音频文件,我们要关注其瞬时响度的表现。根据响度与时间的关系,主观响度往往指的是人耳在一定时间范围内对声音信号的整体感知,这个时间应至少高于 200 ms。而信号在某一时间点,甚至是采样点的峰值电平并不能正确反映该时域内的信号响度。一个看似具有较高峰值电平的信号未必具有较大的响度,反倒是那些电平峰值幅度变化较小的低动态信号则可能具备较大的响度,可以说,响度反映的是信号在一定时间内的平均电平值而不是峰值电平值。就经验来说,持续时间在200 ms-3 s之间的音效,都要侧重观察瞬时响度表现。

image006

image007

三、全面平衡,重点关注。当你组织了一个非常复杂的工程,你会发现那些瞬时跃变至高点的峰值电平会影响到你的整体响度,音频系统所能接收的信号最大峰值电平会限制其响度的提升,大动态的音频信号常常因为出现较高瞬时峰值电平而影响信号的整体平均电平。对于这类问题来说,我们可以采用局部控制,总体限制的办法来把握平衡性。如下图所示,我们利用automation控制某些信号的起振时间,让它的跃变来的慢些,走的快点。整体控制层面,我们可以加入压/限效果器进行处理。一来降低那些没有控制到位的瞬态过载,二来压缩动态,提升响度,增加整体性。在压/限器选择上,我们可以巧用一些与响度模式匹配的效果器进行声处理,如下图2所示。

image008

image009

四、对频率的处理工作尽量前提,不要将频率的平衡工作留在总线处理阶段处理。在总线上挂在多段压缩,虽可以起到一定的频率调整作用,但作为整体来说,会让音效的整体频率比例重构,导致前期资源组织阶段的频谱成分被大面积改变,失去创作的初衷。

本文以问答的形式罗列了一些相对晦涩的词条术语,主要是为了给同窗、同袍们当个词条手册,用于拾遗补短,如能配合同类其它文章进行阅读,风味更佳。感谢Wwise中国的诸位老师提笔校稿,文行至此,字数已尽,我们有缘再见。

 

 

张禹

游戏音效设计师

游族网络

张禹

游戏音效设计师

游族网络

张禹,游族网络音频生产线上的“螺丝钉”一枚。从业八年,是一名热爱对白剪辑的音效师。

评论

junting yu

September 16, 2019 at 04:48 am

先赞再慢慢读

留下回复

您的电子邮件地址将不会被公布。

更多文章

如何利用声音来影响玩家表现

...

23.10.2018 - 作者:OSCAR COEN(奥斯卡·科恩)

Wwise Unreal 音频整合指南

在此跟大家介绍一下由我们在 Game Audio Resource 的朋友制作的 Wwise 2019.1.4 Unreal 4 音频整合指南。...

10.9.2020 - 作者:Game Audio Resource

如何利用Wwise为TPS游戏构建功能完善的枪声

在一个TPS(Third Person Shooter)游戏中,什么样的枪声是好的枪声?

5.11.2020 - 作者:孙大亮

游戏音乐不应仅仅局限于音乐本身 – 第 2 部分

什么是游戏音乐?什么是互动音乐?这些问题的答案并不像看起来那么简单。对此,奥利维尔·德里维耶 (Olivier Derivière)...

20.4.2021 - 作者:奥利维尔·德里维耶 (OLIVIER DERIVIÈRE)

zerocrossing 为 Wwise 开发的 SpectralMultiEffect 插件

SpectralMultiEffect 是一款为 Wwise...

6.1.2022 - 作者:哈维尔•阿西尼加斯 (Javier Arciniegas)

借助 IR 混响增强声音的真实感

8.9.2023 - 作者:BOOM Library

更多文章

如何利用声音来影响玩家表现

...

Wwise Unreal 音频整合指南

在此跟大家介绍一下由我们在 Game Audio Resource 的朋友制作的 Wwise 2019.1.4 Unreal 4 音频整合指南。...

如何利用Wwise为TPS游戏构建功能完善的枪声

在一个TPS(Third Person Shooter)游戏中,什么样的枪声是好的枪声?