0%

配音人声后期处理方法


场景变换后的声音也要变化,有空间感

录音之后,就需要给 ADR 添加环境声,或者说是房间声(Room Tone)了。Room
Tone 可以理解为是在拍摄现场录制的环境底噪,用于填补空缺以保证对白声轨的连贯流
畅。(不要把 Room Tone 和 Backgrounds 相混淆!Room Tone 用于对白剪辑,只
具有保证对白声轨连贯的功能性;而 Backgrounds 则属于环境音效,是具有艺术表现力
的。 )
最后,加上均衡与混响。许多工程师都会使用卷积混响(Convolution Reverb)以
获得更为真实的空间效果。

看电影是一种心理活动的结果。那似动现象不是由视觉滞留,而是由心理活动造成的。
银幕上从来没有活动影像,银幕上只有一秒 24 个静态画面的间歇运动,那活动影像是在看者的脑海里产生的(心理活动)。
有声电影的任务是为我们展示我们周围的声音环境,我们生活在其中的声音世界,除了人的语言以外,一切东西都能说话,并且不断地影响并支配着我们的思想感情,从大海的细语到大城市的嘈杂声。”无声电影理论家巴拉兹在半个世纪以前至少就认识到声音有它的空间色彩:“每一个声音都具有它独特的空间色彩。同一个声音在不同的房间里、在地窖里、在空空的大厅里、在大街上,在森林里或在海面上,听起来都不一样。
每一个声音,当它实际发生在某一地点时,必然便具有某种空间特质,如果我们想利用声音来再现环境,就必须注意这一非常重要的特质。……正如我们的眼睛跟摄影机的镜头是合一的一样,我们的耳朵跟微音器也是合一的。我们听到的声音就是微音器当初听到的声音,这一点并不会由于放映或还音地点的不同而有所变异。因而在有声片里,观众与演员之间的永久不变的距离,不仅在视觉上己经消除……,而且在听觉上也不复存在了。我们离开了我们的座位,不仅作为观众、同时也作为听众,走进了银幕事件的发生地点。
电影的发明依靠的是人的视听知觉的心理活动,我们称做幻觉,如似动现象、空间知觉、条件反射等等,这都是人的记忆中的心理活动,电影电视的发明所依靠的是人的视听生活经验,而不是文学、戏剧、绘画、音乐等等其它艺术形式。当人们对电影电视和广播剧的视听幻觉有了进一步的认识以后,大家就更进一步地明确了,观众之所以感觉那话声是从银幕上某个人物的嘴里说出来的,是因为他发现说话者的口型与听见的话声完全同步,而造成最完美的同步效果的是同期录音。所以同期录音不是什么技术条件,技术选择的问题,而是电影本体的一部分,是造成声音幻觉的先决条件。另外,将近 70 年的同期录音经验证明,画面与声音的结合是一种化合,不是机械相加,也不是声音是视觉的重复,不是“视觉为主,声音为辅”,更不是“眼见为实,耳听为虚”,它们相互影响,不同的组合产生不同的效果,缺一不可。

先把人声处理干净,如降噪、EQ高低切。然后再对人声修饰,如混响。先局部处理,再整体。

①手动降噪,把没有声音的间隔静音
②压限[振幅与压限-动态处理],使声音均衡,不忽大忽小
③低切[滤波与均衡-参数均衡器]

1、“人声和伴奏的融合度”

男声加高频

第一步是腾出动态余量。
初学者可能不熟悉这个词,但是他们已经无意识之间做了这样的事情。那就是直接导入的伴奏声音听起来特别响,所以需要把音量降下去,这样做非常正确。但我们也要建立起规范,究竟降多少合适是有一个大概范围的。我在这里不讨论响度的测量方法,就拿三种类型的歌曲作为例子好了。一般来说,民谣、管弦乐、歌剧之类的曲子动态范围最大,成品音量适中;流行音乐动态范围适中,成品音量较大;摇滚或者金属乐之类动态范围最小,成品的音量特别大。那么第一种我们可以减 36 dB,第二种减 69 dB,第三种减 9~12 dB。
这样我们导入人声(此时的人声应该是修音对轨去杂音之后,可以直接拿来混音的素材),可以有一个大概合适的平衡关系,而人声个别字句过于响亮,或是被伴奏盖住,那么我们用包络之类的修整手段解决掉。在这一步,我们能解决掉 70% 的人声与伴奏比例之间的问题了。

第二步是效果器的事情了。
前面也说过,伴奏是有处理过的,而人声是未添加任何效果器的状态。那么该用的常规效果链,例如EQ - 压缩,以及发送的混响和延迟,该怎么用就怎么用。EQ 可以有两道,第一道用来解决问题,第二道用来设计曲线美化声音。而压缩是用来控制人声动态范围的。

第三步是把响度补回来。
这时我们在立体声输出的位置使用响度最大化效果器,前面我们一开始对伴奏减了多少音量,那么这时我们就补多少音量。

贴耳感:
操作手法:压缩。
提高输入音量,压缩输出音量。效果器:压缩/限制器(Compressor/Limiter)

修复:
1.降噪,使用工具 iZotope RX 7 Voice de-noise(首选)
2.修复喷麦,使用工具 iZotope RX7 de-plosive
3.修复过载失真,使用工具 iZotope RX7 de-clip
4.修复咔哒音(爆音),使用工具 iZotope RX7 de-click(或Waves X-Click);
5.修复持续的电流声/其他固定频率的噪声,使用工具 iZotope RX7 de-hum(或Waves X-Hum)
6.处理歌手的口水音,使用工具 iZotope RX7 mouth de-click(如果自动去除不够干净,请使用Audition或RX7 Standalone光谱编辑器的自动修复功能)
7.控制歌手的呼吸音,使用工具 iZotope RX7 Breath Control(或Waves DeBreath)
*8.处理歌手的齿音,这部分不建议直接在修复阶段进行,但如果歌手齿音太过严重在干声时就已经让人感到严重不适,可以提前处理成正常齿音的大小。使用工具为FabFliter Pro-DS(或 iZotope RX7 de-ess 或 Waves Sibilance 或 Waves DeEsser 或 Waves RDeEesser)

注意:
*以上8点除8.以外均为破坏性处理(挂上选好了参数直接渲染)而不是实时处理(一直在音轨效果器机架上挂着运行),实时处理挂上去这个DAW就离崩溃不远了。
*以上8点并非每一点都需要,并且在不需要的时候也不要挂上去过一遍。可能会有不希望的破坏现象发生。
de-reverb去混响、de-wind去风声、de-bleed去串扰、de-rustlede-rustle去除衣物摩擦的沙沙声

至于你所说的局部处理和全局处理,在有些情况下只有某一段有问题,可以只选中这一段进行处理。比如只有10s处有口水音,那么只选择这一部分挂上mouth de-click渲染有助于减少等待时间(以上那八个挂上去全应用按照五分钟时长的干声可能需要渲染二十分钟)和减少误处理(当然就算误处理了也听不出来)。但是像降噪、控制呼吸音和齿音这种就一般需要全局处理。

通常情况下,人声修音一切操作的目的,追求的是让声音变得更加“接近自然听见的声音”,也就是正常面对面说话唱歌的感觉,当然除去vocoder或者特殊的特效需求这种情况。

之所以要做各种操作,比如降噪eq混响齿音等等等等,原因是录音的过程,因为种种原因,声音会变得不再自然。
比如说,人耳听别人说话是不会有近讲效应的,那么用麦录完音我们就会稍微衰减一些200以下的部分,声音就更接近真实的没有畸变过的; 麦克风会把s等齿音放大很多,因此我们用desser去除一些齿音,就更接近真实的听感。事实上一条好的干声是完全可以做到除了压缩和eq其他什么效果器都不用加的,加一堆乱七八糟效果器出来的东西,往往也不会很好听,因为线路越长,音质就会越差。

背景音乐:听音乐风格,整体的配器手法,不同乐段的丰满程度以及声场的宽度、给人声留下了多少空间。

在Audition中通过“零交叉点”(即零振幅中线的静音点)的定位就可以实现解说音频的精细剪辑。首先进行待剪切音频段(比如因口误而说错的一句话)的粗略定位,在该段的左起始点处单击鼠标左键,接着执行“编辑”-“过零”-“向内调整选区“菜单命令(或直接按Shift+1组合键),Audition就会自动将刚刚鼠标的定位向右移至第一个零交 叉点,或者按Shif+O执行”向外调整选区”(即向左找相邻的第一个零交叉点)命令(如图4);接着,按M键(或执行”编辑”-*标记”-“添加提示标记”菜单命令)做上第一个标记。同理,再将该区域的右截止点也选择好零交叉点并做上第二个标记,此时即可通过鼠标的拖动来将该区域进行精准选择,再按Del键执行删除操作,从而实现前后两段解说的无缝对接。

人声压缩+eq低切+eq中高频增益+高频衰减+齿音压缩+声像+音量自动化控制,添加发送式的混响和延迟
伴奏让位+轻度混响+多段压缩(选择性)
总线轻度混响+eq+多段压缩(选择性)

人声做一下低切,切到100-150hz左右,然后降低中低频,降低500-800hz左右,降低3-5db,适当提高1000-2000hz的频率,提高1-3db,高频也可以增加一些。5000-7000提高3db左右。12000以上的频率根据情况酌情考虑,可以增加,也可不增加。

小丸工具箱 2pass 1700kbps

x264程序:系统位数 8bit
分离器:auto就行
2Pass:2次编码,有目标码率限制而又有空余时间可以进行二次编码,费时间
CRF:恒定码率系数,缺省值23,通过降低“less important”帧的质量来达到目的,0为无损模式,23为缺省,51质量最差,RF值加6,输出码率大概减少一半;减6,输出码率翻倍,从主观上讲,18~28是一个合理的范围,18往往被认为从视觉上看是近似无损的
ps“less important”的意思是那些过于耗费码率又难以用肉眼察觉的帧,比如复杂或者高速运行的场景。省下来的码率会分配给其它更有效的帧。

格式转换
ffmpeg -i input.mkv -codec copy output.mp4
多声道转单声道
ffmpeg -i 1.aac -ac 1 -ab 320k 2.aac
合并音视频
ffmpeg -i 1.mp4 -i 2.aac -c copy output.mp4
截取片段
ffmpeg -ss 01:12:08 -t 02:02:38 -i 16-29-19.mp3 -vcodec copy -acodec copy 2.mp3

VBR 及 VBR 2 次在色彩变化丰富时容易出现花屏,改为 CRF

码率过高常有花屏、跳帧,最大比特率设为 3 倍即可。

压缩率太高时(低于5Mb/s),不宜使用 2-Pass,使用 VBR 1-pass 反而适合,因在流量不足的情况下,2-pass为了要努力在有限的空间内做更精准的压缩、尝试保留更多细节,反而会让颗粒过度明显。所以 2-Pass 不是万能,要使用 2-Pass,压缩率最好至少有 10Mbps 以上。

OBS ABR 2000
声音 通讯


参考资料
【请教】关于人声的处理!
用adobe audition怎样改变声音声场左右位置?
日经贴解答系列