音视频处理

发表于 2020-03-16 更新于 2023-12-03 分类于视频制作阅读次数评论数

视频拍摄、剪辑、特效字幕制作、压制、录音、音频后期、广播剧制作经验及学习笔记。

学习计划

bilibili UP：

画音社
暴风雪百里冰

摄像

iPhone Pro Series
拍摄软件：FiLMiC Pro
拍摄模式：8-bit Log V2、10-bit Log V3

素材

视频素材

https://pixabay.com/zh/videos/
https://mixkit.co/
https://www.videezy.com/

图片素材

https://www.pinterest.com/
https://www.nipic.com/

广播剧制作流程

看剧本：分析故事背景、风格、人设……
统计所需音乐、音效
处理干音
拼接对话
搭建场景
设计人物动作
加背景音乐
输出 demo 给剧组审核
制作母带（优化 demo）

视频制作流程

镜头→场景→影片

响度标准化
剪辑片段
调色
加转场
音频后期
字幕
渲染

录音

基础知识

无声学装修，录音距离麦克风 10cm。
录音高度影响鼻音和胸腔共鸣。

临场感配音

1.录音时 MIC 倒吊向内弯 10 度到 30 度左右(要看配音员讲话会不会常常喷 MIC 齿音多不多来调)
2.配音员嘴巴离 MIC 约 5cm 的位置这是很标准的位置基本声音出来就很结实
3.先让配音员读一片给你听你就在这时调 MIC PRE 记得音量控制在 -14db 到 -10db 左右
Peak 尽量少一点因为 MIC PRE 控制得好的话你后期就不用作很大压缩
4.如果声音出来好的话我基本不用 EQ 直接用个 RCOMP 做压缩
然后 Limter 限制 peak 在 -8db 整体音量在 -10db
在电视播广告是要注意这些的由此现在流行走 -24loundness 年代
响度过大一定会给客户弹回头重干

视频处理

bilibili 参数

H265 8K
平均码率：60M
峰值码率：180M

小丸工具箱压制

CRF：18 视觉无损，加 6，输出码率减少一半；减 6，输出码率翻倍

FFmpeg

格式转换
ffmpeg -i input.mkv -codec copy output.mp4
ffmpeg -i “input.thd” -aq 12 “output.wav”
ffmpeg -i “input.flac” -c:a pcm_s24le “output.wav”
ffmpeg -i 20231117-172252.quicktime -vf “fps=24,scale=320:-1:flags=lanczos” -c:v gif 20231117-172252.gif
ffmpeg -i input.wav -c:a aac -b:a 256k output.aac
多声道转单声道
ffmpeg -i 1.aac -ac 1 -ab 320k 2.aac
合并音视频
ffmpeg -i 1.mp4 -i 2.aac -c copy output.mp4
截取片段
ffmpeg -ss 00:00:00 -t 00:11:00 -i 1.ts -vcodec copy -acodec copy 2.ts
响度标准化
ffmpeg -hide_banner -y -i “1.mp3” -c:v copy -af “loudnorm=i=-24.0:lra=7.0:tp=-2.0:” -ab 320k “2.mp3”
倍速
ffmpeg -hide_banner -y -i “input.mp4” -c:v libx264 -crf 18 -filter_complex “[0:v]setpts=1/1.2*PTS[v];[0:a]atempo=1.2 [a]” -map “[v]” -map “[a]” “output.mp4”
转265
ffmpeg -i input.mp4 -c:v libx265 -vtag hvc1 output.mp4

Pr

快捷键

波纹剪辑：Q、W
工作区：I、O，；删除、‘’抽取
换位：Ctrl+Alt+拖动
素材库插入素材：，
全选右侧素材：A/Shift+A
批量调色：调整图层
缩放全部：
隐藏窗口栏：Ctrl+
快速选择输出范围：/
对齐：删除空白区域
寻找原素材出入点区域：F
钢笔：Ctrl
替换：源窗口-Alt+鼠标左键
微调：Ctrl
大调：Shift
鼠标吸附：Shift+拖动游标
下一标记：Shift+M
倒放：J Shift慢速
快进：L Shift慢速
停止：K
序列-渲染工作区域内的效果

效果

转场：叠化、拉近、推远
噪点：锐化 50，VR 降噪，杂色级别：0.05
多余元素：中间值
NG 片段变速
字幕：方正粗圆+阴影（效果-投影）
节目名 80% 透明度
字幕：字体背景颜色不透明度改成 0

渲染

VBR 及 VBR 2 次在色彩变化丰富时容易花屏，可改为 CBR。
码率过高常有花屏、跳帧，最大比特率设为 3 倍即可。
压缩率低于 5Mb/s 时，不宜使用 2-Pass，使用 VBR 1-pass 反而适合，因在流量不足的情况下，2-pass 为在有限空间内压缩更精准、保留更多细节，反而会让颗粒过度明显。使用 2-Pass，压缩率最好至少有 10Mbps 以上。

调色

FiLMiC_deLog_V2b.cube
黑色：5%-15%
阴影：20%-40%
饱和度：120-130

AE

快捷键

裁剪：Alt+[]
全屏：Ctrl+
入点：[]
层级：Ctrl+[]
复制：Ctrl+D

Aegisub

美食节目字幕
字体：方正粗圆简体
垂直边距：98
字号：65
阴影：透明度 90

OBS

录像格式：mp4
encoder：x264
颜色格式：I444
色彩空间：sRGB
色彩范围：Full
码率控制：CRF
CRF：16
CPU Usage Preset：medium

ASS/SSA

黑：{\c&H000000&}
白：{\c&HFFFFFF&}
明黄：{\c&H00E6FF&}
深红：{\c&H5247BE&}
淡粉：{\c&HE0D7F8&}
淡蓝：{\c&HE2B985&}
淡绿：{\c&H85E2B9&}
描边：{\bord6}
描边、黄色：{\bord6}{\c&H00E6FF&}
字号：{\fs50}
字号渐长：{\fs20\t(0,2000,\fs100)}
{\r}
{\fs50\c&H85E2B9&}

黄填充：ffd236 描边：ffffff
粉填充：bca9b3 描边：b15c75

多声道视频

视频文件名中带有：DDP5.1
前置左右声道：背景音乐、环境声效
中置声道：人声对白，同时还能让前方声场的声音连贯性更平滑，并能与左右声道配合将聆听区域范围扩大化
环绕声道：环境声效、部分特定音效，并配合前方声道来实现声音的前后移动效果
低音声道：低音及其他声道的低频部分
在PR中选择素材，右键-修改-音频声道。
将剪辑声道格式修改为单声道，音频剪辑数输入6（因为5.1声道会输出6路音频）。
再使用素材直接创建序列，会发现这个视频素材有6个音频轨道。
此时5.1声道的视频就可以通过静音轨道的方式来去除人声或背景音乐了。

音频处理

流程

放大振幅
滤波
混响

基础知识

噪音

口水音：频谱中细长条。
齿音：男性齿音不重，4k 以上的声母 z、c、s、t 等的刺耳嘶声，气流与牙齿摩擦发出的声音。

频段

超低频：0HZ-60HZ
低频：60HZ-250HZ
中低频：250HZ-2KHZ
中高频：2KHZ-6KHZ
高频：6KHZ-20KHZ

压限

压限：低的声音拉高，高的声音压下来。

电平

电平表用来显示声音的峰值电平（Peak Leve）和平均电平（RMS Livel）。

dBFS（Decibels relative to full scale）

dBFS 是数字音频信号电平单位，以 0dB 作为声音最大值，超过 0dB 就会出现削波失真，也被称为破音。

峰值电平（Peak Level）

峰值电平是指一段音频信号中的最大值，是系统能承载的最大范围，峰值电平超过 0dB，就会出现削波失真，也被称为破音。

平均电平（RMS Level）

一段时间内的电平均值，用来描述响度。

软件调音台上默认显示的电平是峰值电平。如果要同时查看峰值电平和平均电平，可以在轨道上加载一个电平表插件。例如 WAVES 插件中的 PAZ METER ，或者 Logic Pro X 自带的电平表 Level Meter 等。

人声录音的最佳电平

录音的电平大小是有一个技术标准的：峰值电平不超过 -3dB，平均电平控制在 -12dB~-18dB。
录音时关注峰值表，是为了确保不录破；关注平均电平，是因为它反映了声音的平均响度。

这个数值是经过科学计算以后，数字录音中最理想的电平状态，能够最大程度保留动态范围，并且利于后期处理的电平范围。

1 bit 能记录 6dB 的动态范围，24bit 的录音，最大动态范围是 144dB。留出 3 bit 的余量，实际使用 21 bit，还有 126 个bit，能够发挥话筒和 AD 转换器最大动态范围。

EQ

人声位于 80HZ~12KHZ 间。
80HZ 以下：超低频，人声不需要，做低切；男生 60Hz，女生 80Hz
80-500±HZ：低频，人声饱满、厚度、质感，音质差、声音薄增加低频，声音闷降低低频
2.5KHZ-6KHZ：中高频，人声清晰度、临场感、响度，提升清晰、明亮，降低会模糊有门外说话效果
12KHZ：颗粒感、空气感

配音是高低频电子管激励激励，饱和度、适当点点混响类
后期加个激励、EQ、压缩

压缩

降低阈值以上音量，获得健康动态范围。
阈值（Threshold）：根据音量最高处设置。
压缩比（Ratio）：一般人声为 2:1、3:1、4:1、5:1，达到听不出压缩过的效果
触发时间（Attack）：节奏快则小，节奏慢则大
释放时间（Release）：节奏快则小，节奏慢则大
补偿（Makeup）：压缩后整体音量会减小，需要补偿给人声的音量

混响

板式混响（plate）：唱歌的时候，在前面加了一块金属板，加上这个混响之后，可以改变人声音色，声音产生距离感，而不是啪啪啪的打脸；
房间混响（room）：增加人声的厚度，给予一定的空间信息
大厅混响（hall）：能让声音变得非常飘渺，有仙气，多为古风流行歌应用
预延迟（Predelay）：干声被反射回来的时间
混响时间（Time）：发声、产生混响、反射回的时间，长一些会好听

延迟

Delay：使声音推迟一段时间，重放多次，逐渐衰减，配合混响使用，增加人声宽度，加深空间感。

干、湿

干：原音
湿：效果音

直通

ByPass：不使用效果器。

激励器

BBE：通过激励低频或者高频，产生谐波，美化人声，增加磁性感，温暖感和厚重感，并且提高声音音量、清晰度、亮度，增强声音的频率动态，从而产生悦耳的听觉感受。
1400 HZ 激励拉满到 10。

Au

快捷键

自动修复：Ctrl+U
重复上次操作：Ctrl+R

设置

设备类型：ASIO 优于 MME，延迟低

修音

齿音：用矩形框选工具将 4k 以上频谱音量减小
降噪：不用 Au 自带降噪；VST 3→还原→Waves→X-Noise Mono，选中噪音区间→学习→阀值调整到白线位于最上面→试探衰减量到噪音刚好消除/NS1 Mono 智能处理
污点修复画笔：8px
音量平衡：效果→振幅与压限→电子管建模压限器：阈值为整体正常音量的最大范围；比例需计算最高音量与平均音量之差，如果差值为 9，比例为 3:1，则音量下降 3dB
强制限幅：设为 -1 避免爆音
动态处理：各分贝区间音量调整，可用来设噪音门限
多普勒效应：立体声空间效果

参数

平均响度：-24LKFS/-18LKFS
Short-term：-18/-24
峰值音频电平：-2dB
电平：-12~-6

目标响度：-16
容差：2
最高峰值电平：-2

EQ：
7700Hz -13.5dB 8.5Q
6500Hz -10dB 5Q

背景音乐

听音乐风格、整体的配器手法、不同乐段的丰满程度以及声场的宽度、给人声留下了多少空间。
背景音乐 1500 Hz 音量下降 10dB，留给人声。
伴奏加 Room 混响，贴近人声声场。

语音合成

https://azure.microsoft.com/zh-cn/services/cognitive-services/text-to-speech/?cdn=disable#overview
Yunxi (Neural) - 云希
Cheerful
语速: 1.00
音调: 0.92

微调：https://speech.microsoft.com/audiocontentcreation

<speak xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" xmlns:emo="http://www.w3.org/2009/10/emotionml" version="1.0" xml:lang="en-US"><voice name="zh-CN-YunxiNeural"><mstts:express-as style="cheerful" ><prosody rate="0%" pitch="-4%">内容</prosody></mstts:express-as></voice></speak>

待整理知识

压缩器：大音量压小，音量更统一稳定，为响度提升留出空间，避免提升音量就爆音
Ratio = 3:1-5:1
Attack = 4-6ms
Release = 100-150ms
或使用Vocal预设
EQ：增加中高频突出人声
去嘶声，近讲会增加嘶声
混响，有一点混响，增加环境感，不至于突兀，加混响后调整干湿比；真正需要的量小于认为需要的量，因此调好后再降低些 Wet<20

①手动降噪，把没有声音的间隔静音
②压限［振幅与压限-动态处理］，使声音均衡，不忽大忽小
③低切［滤波与均衡-参数均衡器］

激励器：如果录出来的声音有些发闷（话筒，声卡不是很行的话），可以通过激励增加些清晰度！增加人声的泛音！谐波~

场景变换后的声音也要变化，有空间感。

录音之后，就需要给 ADR 添加环境声，或者说是房间声（Room Tone）了。Room
Tone 可以理解为是在拍摄现场录制的环境底噪，用于填补空缺以保证对白声轨的连贯流
畅。（不要把 Room Tone 和 Backgrounds 相混淆！Room Tone 用于对白剪辑，只
具有保证对白声轨连贯的功能性；而 Backgrounds 则属于环境音效，是具有艺术表现力
的。）
最后，加上均衡与混响。许多工程师都会使用卷积混响（Convolution Reverb）以
获得更为真实的空间效果。

看电影是一种心理活动的结果。那似动现象不是由视觉滞留，而是由心理活动造成的。
银幕上从来没有活动影像，银幕上只有一秒 24 个静态画面的间歇运动，那活动影像是在看者的脑海里产生的（心理活动）。
有声电影的任务是为我们展示我们周围的声音环境，我们生活在其中的声音世界，除了人的语言以外，一切东西都能说话，并且不断地影响并支配着我们的思想感情，从大海的细语到大城市的嘈杂声。”无声电影理论家巴拉兹在半个世纪以前至少就认识到声音有它的空间色彩：“每一个声音都具有它独特的空间色彩。同一个声音在不同的房间里、在地窖里、在空空的大厅里、在大街上，在森林里或在海面上，听起来都不一样。
每一个声音，当它实际发生在某一地点时，必然便具有某种空间特质，如果我们想利用声音来再现环境，就必须注意这一非常重要的特质。……正如我们的眼睛跟摄影机的镜头是合一的一样，我们的耳朵跟微音器也是合一的。我们听到的声音就是微音器当初听到的声音，这一点并不会由于放映或还音地点的不同而有所变异。因而在有声片里，观众与演员之间的永久不变的距离，不仅在视觉上己经消除……，而且在听觉上也不复存在了。我们离开了我们的座位，不仅作为观众、同时也作为听众，走进了银幕事件的发生地点。
电影的发明依靠的是人的视听知觉的心理活动，我们称做幻觉，如似动现象、空间知觉、条件反射等等，这都是人的记忆中的心理活动，电影电视的发明所依靠的是人的视听生活经验，而不是文学、戏剧、绘画、音乐等等其它艺术形式。当人们对电影电视和广播剧的视听幻觉有了进一步的认识以后，大家就更进一步地明确了，观众之所以感觉那话声是从银幕上某个人物的嘴里说出来的，是因为他发现说话者的口型与听见的话声完全同步，而造成最完美的同步效果的是同期录音。所以同期录音不是什么技术条件，技术选择的问题，而是电影本体的一部分，是造成声音幻觉的先决条件。另外，将近 70 年的同期录音经验证明，画面与声音的结合是一种化合，不是机械相加，也不是声音是视觉的重复，不是“视觉为主，声音为辅”，更不是“眼见为实，耳听为虚”，它们相互影响，不同的组合产生不同的效果，缺一不可。

1、“人声和伴奏的融合度”

男声加高频

第一步是腾出动态余量。
初学者可能不熟悉这个词，但是他们已经无意识之间做了这样的事情。那就是直接导入的伴奏声音听起来特别响，所以需要把音量降下去，这样做非常正确。但我们也要建立起规范，究竟降多少合适是有一个大概范围的。我在这里不讨论响度的测量方法，就拿三种类型的歌曲作为例子好了。一般来说，民谣、管弦乐、歌剧之类的曲子动态范围最大，成品音量适中；流行音乐动态范围适中，成品音量较大；摇滚或者金属乐之类动态范围最小，成品的音量特别大。那么第一种我们可以减 3~~6 dB，第二种减 6~~9 dB，第三种减 9~12 dB。
这样我们导入人声（此时的人声应该是修音对轨去杂音之后，可以直接拿来混音的素材），可以有一个大概合适的平衡关系，而人声个别字句过于响亮，或是被伴奏盖住，那么我们用包络之类的修整手段解决掉。在这一步，我们能解决掉 70% 的人声与伴奏比例之间的问题了。

第二步是效果器的事情了。
前面也说过，伴奏是有处理过的，而人声是未添加任何效果器的状态。那么该用的常规效果链，例如EQ - 压缩，以及发送的混响和延迟，该怎么用就怎么用。EQ 可以有两道，第一道用来解决问题，第二道用来设计曲线美化声音。而压缩是用来控制人声动态范围的。

第三步是把响度补回来。
这时我们在立体声输出的位置使用响度最大化效果器，前面我们一开始对伴奏减了多少音量，那么这时我们就补多少音量。

贴耳感
操作手法：压缩。
提高输入音量，压缩输出音量。效果器：压缩/限制器（Compressor/Limiter)

修复：
1.降噪，使用工具 iZotope RX 7 Voice de-noise（首选）
2.修复喷麦，使用工具 iZotope RX7 de-plosive
3.修复过载失真，使用工具 iZotope RX7 de-clip
4.修复咔哒音（爆音），使用工具 iZotope RX7 de-click（或Waves X-Click）；
5.修复持续的电流声/其他固定频率的噪声，使用工具 iZotope RX7 de-hum（或Waves X-Hum）
6.处理歌手的口水音，使用工具 iZotope RX7 mouth de-click（如果自动去除不够干净，请使用Audition或RX7 Standalone光谱编辑器的自动修复功能）
7.控制歌手的呼吸音，使用工具 iZotope RX7 Breath Control（或Waves DeBreath）
*8.处理歌手的齿音，这部分不建议直接在修复阶段进行，但如果歌手齿音太过严重在干声时就已经让人感到严重不适，可以提前处理成正常齿音的大小。使用工具为FabFliter Pro-DS（或 iZotope RX7 de-ess 或 Waves Sibilance 或 Waves DeEsser 或 Waves RDeEesser）

注意：
*以上8点除8.以外均为破坏性处理（挂上选好了参数直接渲染）而不是实时处理（一直在音轨效果器机架上挂着运行），实时处理挂上去这个DAW就离崩溃不远了。
*以上8点并非每一点都需要，并且在不需要的时候也不要挂上去过一遍。可能会有不希望的破坏现象发生。
de-reverb去混响、de-wind去风声、de-bleed去串扰、de-rustlede-rustle去除衣物摩擦的沙沙声

至于你所说的局部处理和全局处理，在有些情况下只有某一段有问题，可以只选中这一段进行处理。比如只有10s处有口水音，那么只选择这一部分挂上mouth de-click渲染有助于减少等待时间（以上那八个挂上去全应用按照五分钟时长的干声可能需要渲染二十分钟）和减少误处理（当然就算误处理了也听不出来）。但是像降噪、控制呼吸音和齿音这种就一般需要全局处理。

通常情况下，人声修音一切操作的目的，追求的是让声音变得更加“接近自然听见的声音”，也就是正常面对面说话唱歌的感觉，当然除去vocoder或者特殊的特效需求这种情况。

人耳听别人说话是不会有近讲效应的，那么用麦录完音我们就会稍微衰减一些200以下的部分，声音就更接近真实的没有畸变过的;
麦克风会把s等齿音放大很多，因此我们用desser去除一些齿音，就更接近真实的听感。
事实上一条好的干声是完全可以做到除了压缩和eq其他什么效果器都不用加的，加一堆乱七八糟效果器出来的东西，往往也不会很好听，因为线路越长，音质就会越差。

人声做一下低切，切到100-150hz左右，然后降低中低频，降低500-800hz左右，降低3-5db，适当提高1000-2000hz的频率，提高1-3db，高频也可以增加一些。5000-7000提高3db左右。12000以上的频率根据情况酌情考虑，可以增加，也可不增加。

在Audition中通过“零交叉点”（即零振幅中线的静音点）的定位就可以实现解说音频的精细剪辑。首先进行待剪切音频段（比如因口误而说错的一句话）的粗略定位，在该段的左起始点处单击鼠标左键，接着执行“编辑”-“过零”-“向内调整选区“菜单命令（或直接按Shift+1组合键），Audition就会自动将刚刚鼠标的定位向右移至第一个零交叉点，或者按Shif+O执行”向外调整选区”（即向左找相邻的第一个零交叉点）命令（如图4）；接着，按M键（或执行”编辑”-*标记”-“添加提示标记”菜单命令）做上第一个标记。同理，再将该区域的右截止点也选择好零交叉点并做上第二个标记，此时即可通过鼠标的拖动来将该区域进行精准选择，再按Del键执行删除操作，从而实现前后两段解说的无缝对接。