SC：编辑技术，音质，录音，DSP

目前CD音频标准是立体声，44.1k 采样率，16比特深度。这不是一个武断的标准，而是基于我们对于音高、振幅和音色的听觉能力。我们有两只耳朵，我们最高能听到频率为 22k 的声音，并且能够分辨在 90db 范围内的振幅。立体声适应了我们的两只耳朵，44.1k 能够捕捉到 22k 的声波，而 16bit 可以创造一个 144db 的动态范围。

双轨编辑器

双轨编辑器与磁带机具有相同的特性。Sound Designer II 是最初的数码编辑器。它在少量的例如 Peak 和 CoolEdit 等专业程序之后出现，再然后就是一堆各种高质编辑器的出现，在此不一一例举。它们中的绝大多数都提供不同的采样率，比特率和压缩格式供你使用。它们同样具备一些举出的编辑工具，诸如放大、缩小，复制，剪切，粘贴，标记，区域，多窗口和键盘快捷键。数码处理器，例如降噪，混响和回声，合成和调制器，以及光谱分析同样更觉普遍。

多轨程序的出现，是为了处理多于两规的复杂音频。多轨编辑器对于录制简单的立体声音乐会、朗诵和母带处理（最优化，清理，淡入、淡出，降噪，数位化唱片等等）并非一个好的选择。一个好的工作室应兼备二者，并且工程师也应捻熟二者。

干净的编辑

高质量音频的第一步即干净的编辑。多年以前，我们用刀片和胶带对成卷的磁带进行编辑。他们的下一代是DATs和CD，它们无法被编辑。硬盘数码音频以其便捷、灵活的操作方式成为了一场革命。它能简单地将复杂的工作统一起来，甚至复杂如整个交响乐团的配置。精准变得简单，因此不可原谅的导致了一个错误：非零点交叉编辑（non-zero crossing edits）。

非零点编辑即当你选择、复制或粘贴在一个点时，那个点的波不在0位，或不在图表的中心。这样的剪切操作在仅仅一个采样点上造成正能量到负能量的一个急剧变化。下图即一个非零点剪切的范例（单声道模式）。（本例非常简短，通常你所做的编辑可能会持续数分钟，但原理是一样的。）第一幅图展示了一个音频文件的选择部分。全都是非零的，因此是不正确的。在下一幅图中，这个部分被删除了。注意在一个采样内波从正值到负值移动后锋利的边缘。

这些不正确的编辑会造成滴答声或爆音。由于这个错误普遍存在，绝大多数的编辑器提供了一些诸如交叉淡化，波的插值法（interpolation），“对齐到零点”，甚至自动的“修复滴答声”等简单的解决方式。但一个训练有素的工程师应在之初就避免它们。这可以通过谨慎选择编辑点或在做复制粘贴工作前放大音轨来选取零点等方式达到。这一目标常常对于左声道可能位于0点而右声道却不在的立体声文件显得比较复杂。在这样的情况下，可以使用先前所述的那些方式矫正编辑点。

零点交叉编辑被认为是一种好的形式，但一个真正的专家则继续向前一步进而选择零点交叉下行编辑点（zero-crossing descending edit points）。一个下行编辑点即波从正能量向负能量移动的位置。如果你从零点交叉下行处进行编辑，但结尾选择一个零点交叉上行，那么这个区域将确实位于零点，但在方向上会有一个快速的变化。下图第一例展示了一对结果截然不同的非零点编辑。

数字音频工作站使用交叉淡化使得这些转化和编辑变得更加简单：在两个音频文件或音频文件的两个节段间做millisecond ramping（不知道如何翻译才好，，不好意思。）

立体声

我们使用双耳来判定空间方位。如果一只耳朵听到的声音更大，我们便认为音源在那边，如果两只耳朵的音量均等，我们就会认为它在我们前方。两只耳塞的耳机，或一间屋里的两个扬声器重制了这一现象。立体声程序同样对于制造和感知来说更高效。扬声器如果产生不同的信号它们会更高效，并且我相信（没有任何科学背景）当不同的乐器支配我们不同的耳朵（以及左、右脑）时，我们的大脑对声音的处理也会更高效。

这一二元性（duality）延伸贯穿了整个录制与回放的过程。我们常使用两支麦克风以一种立体声的模式录制现场音乐，在混音器中使用双轨，用双线外放和两支放大器、两支扬声器进行回放，最后抵达我们的双耳。

单声道

到声道程序缺乏深度和图像（image），但它们更经济、更易于制作。单声道信号被用于绝大多数的PA系统、AM广播和电视节目中。

在一个多轨的环境中，最后会被混录为立体声，但绝大多数的轨道都是被以单声道模式录制。在最后混缩环节，通过声相调节在两个扬声器间的位置。某些轨，例如钢琴，鼓组，背景和声，需要保留立体声图像，那么它们需要被以立体声的形式录制。

采样率

影响采样率选择有三点：频率范围、量化噪声（aliasing）和文件大小。CD的采样里基于尼奎斯特定理（Nyquist theorem），它表明采样的数目必须是被采样最高频率的两倍。一个22k的波在每个循环中均有一个波峰一个波谷，因此要重制它你至少需要两个数字：一个给波峰，一个给波谷，因此 22k 的波需要44k的采样率。现在绝大多数数字转换器提供高至64k和96k，低至22，11甚至5k的采样率。以较低的采样率录音将减少被录制频率的上层范围，本质上过滤更高的音及谐波。

犬哨产生超越我们听觉范围的频率，很多乐器也是如此。那么我们需要担心那些我们无法听到的频率吗？是的，原因有二。

第一个原因是避免频谱混叠（aliasing）。通常超越我们听觉范围的频率会与采样率相互作用，进而产生我们听觉范围内部想要的频率。频谱混叠与电影放映类似。电影的帧就像采样，对真实现象做快照。在一部电影中，帧频及轮盘转速可以配合实现慢放或倒放的效果。对于声波来说，也可以做同样的事。采样及在给定位置一个波的快照。快照的比率与波的比率可以结合创制一个实际上并不存在的“幽灵”波，它属于采样率以及被采样频率的一个副产品。

将出现的并非你想要的频率是被采样频率和采样率之间差异的综合。比如说，如果你以44100采样一个44100Hz的频率，你实际上会得到一条1Hz的波。如果以44.1k采样44500Hz的频率，将以400hz告终。

图解的话，看看你手表的秒针，每秒开、闭你的眼睛（及“采样”你看到的东西）一次。秒针以每分钟一次的比率掠过表面。如果你每秒开、闭你的眼睛一次，你可以很清楚的看清秒针环绕表面的动作和频率。那是因为你的采样率（每分钟60次）大大高于秒针的循环周期（每分钟一次）。现在每分钟睁开你的眼睛一次，准确的。你看到了什么？秒针是静止不动的，即使它一直以每分钟一次的频率在不间断运动着。现在每59秒睁开你的眼睛一次。第一个“采样”将显示在59，下一个58，再下一个58.基于你的采样率，你的表竟然是在不断向后走的！在每小时一次的采样率下（在回到0前，它会采样60次，大概每分钟一次）。如果你的采样率是61秒，看起来仍会是向前走的，但每小时只一次，因为每次当你睁开眼并看起来仅像是移动了一秒的时候，秒针其实已经走了一圈又1秒。你仅是制造了一个看起来像每小时一次实则每分钟一次的频率。这便是频谱混叠。

以一个更高的采样率录音，比30k还要高得多的采样率，能够降低频谱混叠的风险。

关于高采样率的第二论述是超越人体感知范围的频率间相互作用在更低频率间产生重要的人工产品（artifact）的理论，在我们确实能够听到的范围（换句话说，自然的频谱混叠）。在一间音乐厅里，那些频率有了相互作用和合并的机会。但在乐器们被隔离的情况下它们无法成为一体。在这样的情况下，乐器们只有在电脑中进行混音时数码地混合。基于这个原因，讨论继续，母带应被以96k录音以包含30k及以上的频率，从而在混音时混合。我并未见过关于这个理论坚实可靠的论证。

最后，在你可以随意减少采样的同时，你永远无法增加采样。原来以96录制的东西可以被降到11以节省空间。但如果你以11k录音，你永远无法获得以96k录音中的那些信息。选择采样率的标准是文件大小 vs 重要的较高频率。如果你录制一段演讲，那么一个高至5k的频率范围便足矣应付一场普通的演讲。在那样的情况下，11k的采样率便可被使用。

44.1, 48, 88.2, 以及 96 K

我将避开复杂的采样率历史并简单指出在视频世界，我们以48k和96k工作。在音频世界，我们使用44.1和88.2。当你将一个采样率转换到另一个的时候，你应该始终倍增或倍减其值。88.2到44.1没问题，96到48也ok。但96到44.1或48到44.1将产生噪音。如果你没得选，抖动（dithering）可以作为这种噪音的补偿，但最好基于你最后工程的目标来做原文件。如果你做视频，用48或96。如果最后的产品是一片CD，使用44.1或88.2。

噪音

比特深度又是干嘛的？在修改了这些文字七、八遍之后，我决定开始进行噪音的讨论，因为我总是将它看做一个噪音源。因此耐心一点，我们将会接触比特深度。

高质量录音的下一步是闲置噪音。噪音是任何不想要的声音。它可以是诸如空调风扇、电脑风扇、嗡嗡响的灯泡、或来自混音器，fx原件或放大器的系统噪音等背景噪音，或诸如底采样率或比特深度的DA转换噪音。你永远无法消除噪音，因此最好的选择便是增强信号（你想听到的）和噪音（你不想听到的）之间的分水岭。这个分水岭的专有名词叫做信噪比（signal to noise rate）。信噪比以db表述。一个电子元件比如放大可能会注明其信噪比为－80db。那表明如果你正在聆听一个普通的信号比如一张CD，然后停放CD并增大增益（gain）80db，此时放大器制造的自身的背景噪音将与你刚才听到的信号一样响。

一个简单的降噪策略便是使用高质量的设备。比如说一个火线的混音器，一个Mbox或digi002（尽管我持续听到对于其转换器的差评）的声卡将比你使用电脑的板载声卡获得更少的噪音。

另外便是减少或排除噪音源（在背景噪音的情况下）。移到一个更安静的地方，关闭冰箱、电灯、电扇或电话。当前几点需要很多技术知识而被人们重视的同时，我们现在提到的这点却常被人忽视掉。

下一个方法要求一些混音技巧：设定最优水平。在录音前，你应当在不产生失真（见下边）前将输入增益调得尽可能大。

麦克风接近是达到最优水平的一个方法。近距离的麦克风位置将增大信号量。但这并不是说你应该总是将麦克风靠近音源。当在一个有着很好的声场的大厅内录音的时候，你应该将麦克风移远以混合音源及大厅的混响。在这样的情况下，大厅的声音不是噪音，而是你绝对愿意在录音中加入的信号。

最后的手段，至少对我来说，是数码降噪，并且应该最后使用。当以数码的方式移除不想要的声音时，你必须要折中你的音质。信号处理是为低质的混音和设备服务的。漫无目的的拧各种旋钮是令人崩溃的，但一个训练有素的工程师永远不会到这个份上。处理加工永远对信号妥协。

失真

失真是任何一条波的错误表述。由低采样率或比特率创造的锯齿状边缘就是失真的一例。失真常被创造性的使用，以使音源变成一些新的东西。但如果你的目标是精准的还原，那么它应被避免。

绝大多数的普通噪音源来自将一个音频设备推至超过其可反映的物理能力的行为。于是媒介接着被“饱和（saturate）”或过载。任何东西——麦克、前置放大器、混音器、fx设备、乐器、扬声器，甚至你的耳朵——都可以被饱和。当音乐超越了那个物理栅栏，它便不再被再生并因此而丢失，或被修剪（clipped）。结果便是上层频率的丢失以及一个法滋（fuzzy）或低沉的声音。

将麦克风无限靠近音源可能造成过载。绝大多数麦克有可以将输入增益剪掉20或15db的选项。最常见的噪音源是在信道内使电子或数码元件饱和。一个控制音量增益的旋钮常常会被配给一个伴随红绿信号强度指示灯的音频元件。

设置水平（Setting Levels）

设置水平的时候，你应当让演奏者弹奏他整个曲子中最响的那一段，甚至是那件乐器能够发出的最响声。在这期间设置水平，并为防止爆音留出约5 db的空间。

注意在音乐行进的过程中，任何组件都有可能过载，你需要随时监控它的出现。

设置水平总的来说就是在尽量远离噪音床（bed of noise）的同时不失任何组件过载。模拟磁带比数码噪声更大，模拟过载是一种更柔软和宽仁（forgiving）的声音。数码失真是粗糙刺耳的，并且噪音床慢得多。因此如果我不确定我在低层对于一个信号犯下的错误的话，它可以在不增加同样多噪音的条件下稍后被优化。

比特深度

比特深度，对我来说，是一种噪音源。比特深度越高，越多的上层空间（headroom）需要应付。

一个比特是一个能够表示0或1的内存单位。在一比特的前提下，你仅能数到1（0和1）。两比特，你能数到3（00，01，10，11）。比特越大，你能数到的数字越大。四比特就会有16种可能的组合，所以你最高能数到16。16比特越有稍大于65000种可能的组合，所以你可能大概得到－32000到32000间的数字。

采样率是每秒进行采样的次数。比特深度是给采样使用的数字的多少。比特深度代表振幅，因为较大的数字能够准确描述振幅更大的范围。每一额外的比特会被解释为额外的7db范围。8和16比特间的差异大约为50db。8比特给予50db的上层空间，16比特100db，24比特大约150db。什么之上的上层空间？比特深度自己（比特本身？）。

如果你使用一个低比特率录制一条正弦波，比方说，10个数字（－5到5），一条纯正弦波将会显得参差不齐，因为每采样一次它都要去到－5到5间的某一个数字上。同样的，如果你以一个非常低的dB生成一条正弦波，比如说5 dB，8 bit，然后增大振幅到大约40 dB，你将不会看到一条干净整齐的正弦波，而会看到：

你看到的阶梯来自我们所拥有的数字的限制：-5, -4, -3, -2, -1, -, 1, 2, 3, 4, 5。如果，打个比方，5完了之后马上到4，那么4与5之间的信息将会被丢失。以低比特深度录音会增加噪音，或一种颗粒状的声音。

采样率与比特深度可以用数码照片同样的参数（分辨率和比特深度）来图形化。下边就是一个例子。第一幅图片是正常的，第二幅是低分辨率（注意山边缘的锯齿）＋高比特深度（颜色区域是准确的）。最后一幅是高分辨率（平滑的山的轮廓）＋低比特深度（块状的颜色）。

文件大小

那么为什么不用立体声。96k，24bit做一切事情呢？我班上有位学生曾经的导师让她这么做。她在我班上一个3分钟的工程大约有4GB这么大（并且她的好多录音并没有相关的立体声信息：单乐器或人声）。作为对比，其它学生们平均的文件大小最大不超过80MB。

你觉得这是微不足道的？一张DVD而已？我承认这是越来越小的一件事情。但如果你要做一张有10首歌左右的CD，每首歌3-5分钟，那就是40GB。再下一张CD，80GB。对于我们实验室3成的学生来说，这就是一个问题。如果一间专业的工作室如此工作两个月的话，他们的空间消耗将是这的10倍甚至20倍。每当你打开一个工程文件，备份它，或从服务器移动它，你不得不等待。如果你又足够多的时间和空间，那尽管这么做吧。

也许我太过于关注经济了。这源于我曾经在4轨60分钟磁带上工作的经历，那时候每英寸可供录制的地方都是珍贵的。但还有一个更微妙的问题：这反映了你做为一个工程师的技术。总是突破文件大小的限制，从不丢弃录坏的部分，复制文件等等都是不专业的表现。这些坏习惯会回来作祟。一个天才的工程师永远是经济和高效的。

当我将这个学生的工程转换回44k，16bit，仅当需要时才使用立体声文件后，她的工程变为了100MB。管理起来容易得多。因此这是我在这个课上总是建议的格式。

那么这就是数字。文件大小与轨数，采样率和比特深度直接相关。如果你按一半或四分之一减少它们，那么文件大小也会成比例变化。这是你应牢记的：1分钟CD音质（44.1k，16bit，立体声）的音频时10M。将它变为单声道后，5M。重新采样到22k，2.5M，11k，1.25M。以8bit录制，0.6M 每分钟。一小时CD音质的音频是600M，但一小时11k，8bit的单声道音频大概是30M。也许这更适于录制一个演讲。

“正确”的录音方法

我为我的喋喋不休而抱歉，因为我希望驱散音频录制便是宗教的神话。

目前为止，我只是给了你们选项，而并没有特别推荐某种方法，比如说用更靠近的麦克录音，或者更远的距离，我只是告诉你如果你在一间有杂音的房间里录音，那么将麦克放得更近一些，如果你需要包括环境回声，那么就离得远一些。我没有说用44.1k还是96k录音，我只是给了你们一串可供选择的采样率列表。那么“正确”的方法是什么呢？你应在使用最少的时间、金钱、空间以及资源的前提下能够达成你的目标的方法。

我从来不懂某些人在音频技巧中的感情投资。我总是回避这个话题，就像一个人在晚餐时回避讨论宗教一样。我几乎不敢建议某些工程师不要使用监视器了。他们对待它就像亵渎神灵一样。因此冒着可能回冒犯到别人的风险，我仍无条件的拒绝有音频之神的存在。并没有真正的采样率。没有通往麦克摆放位置的光明大道。有的，只是聪明的选择。

有一件激发我这通大话的小事。现在和以后我需要把我电脑中正播放的一些东西数位化（digitalize）：或许是系统自带的警告声或者异端我可以通过浏览器播放却无论如何无法下载到本地的音频文件。有很多种方式来做这个事：你可以将一台机器的输出连入另一台机器的输入，甚至将一台机器的输出直接连到它的输入。同样还有许多种支持内录的软件。我使用了绝大多数方式，但它们都有一点闹缠和小贵。一天我很急着要把一个网站上的对话数位化。我打开了一个数字录音机并开始琢磨着如何连接输入和输出。然后我忽然偶然注意到，录音机已经抓取到网页的声音信号。因为我将系统输入设置为了外部麦克，在我的笔记本上它恰好位于扬声器旁边。无须接线，麦克风正在听着我所听到的声音。我遂后点击录音并让它就这么一路走下去。音质不是太好，但对我满足我的要求已经足够好。

我觉得这是一个很好的小诀窍并将它发表到了Mac hints网站。我总是准备好聆听来自其它作者的意见，但令我惊讶的是，这篇文章受到空前的关注。

当然，她们说，一个“真正”的工程师不会犯让空气进入信道的低级错误。他们建议我的学生们找我退学费。

我常为委员会（committee）会议录音。我想在各种有点身份的人面前，为了不让我自己感到尴尬，我应该用一支高档的AKG 414，并在每个与会人士前放一个风挡（wind screen），然后把信号接入一个PT TDM（如果是大型会议的话，也许需要两个），以96k进行数位化，然后用压缩、混响和一点点回声或合唱进行混音。然后我会交给主管一个装有75GB音频文件的火线硬盘，然后告诉他一个笑话，那就是我们没有任何资金的扶持。

但因为并没有大祭司成天盯着我看，我仅用我笔记本自带的麦克并以11k 8bit 单声道模式进行录制（未作压缩：保存和打开都会更快一些），并交给主管一支内含两小时会议录音、文件量仅有“真正的工程师”文件大小千分之一的优盘。

你也许听过这样一句话，绅士是会拉而不拉手风琴的人，然后我想说，一个天才的工程师是一个拥有设备但不总是使用它的人。他仅使用他需要使用的。一个礼貌的工程师会闭嘴并让其它家伙看着不需要的监视器对声音大快朵颐。以肥皂盒结尾——我感觉好多了。

音乐具象（Music Concrète）

关于具象音乐，最广为接受的定义即使用被以新奇的手法巧妙地处理、改变或失真后的田野录音作为源材料的创作。尽管一般被用来形容艺术音乐，这门技术在电影原声和流行乐种中也很普遍。

越少的知道原始音源，可能会越准确，涉及到被录制声音的定义。看似对我们很普通，但反复重制一个声音的能力，当然，在当时是一个非常特别的想法。一段录音无法被改变，因此你可能会说，并且他们确实也这么说了，它是一成不变的。使用这一定义，我们可以说，绝大多数我们听到的音乐都是具象的。

对于早期的具象创作者来说，他们找寻新声音的努力，并不像他们试图扩展现存乐器的范围和在那个背景下的抽象新声的努力来得多。这些先行者被他们所能使用的模拟磁带的编辑性能所限制。他们做的只是：循环，打散编辑，变速和倒放。这些磁带设备最初的特性并非为创作服务，但这并未阻止他们前进的脚步，使用超越音频工具最初意图的传统一直延续至今。