即時？

人類對於 "即時/立即" 的感覺，我的經驗值是 20ms ~ 50ms，只要大於 50ms 就可以感覺到 "延遲"。 #聲學裡有三個名詞是跟延遲有關係的，分別是 echo / delay / reverb。

　　　※

#Echo 中文翻譯成迴聲、反響，有返回的意思，大部分口語不會特別用中文。"返回" 表示達到某一個臨界條件之後，發生的動作，物理特性原理指的是聲波經由 #介質的反射 (Reflection) 聲音。依照障礙物的材質差異、角度，反射的能量與波形依照空間大小會有所差異。

在混音領域，會利用不同的反射介質，模擬出各種 #效果 (Effect, FX)。Echo 實際要聽到效果，通常要一定的空間以上。依照 25 度攝氏度，聲音的傳播速度 343m/s 計算，人類要能夠察覺 echo ，必須至少要 17.2 米長的空間，才有有所謂的 echo。依此可以計算出 echo 的時間約 100ms

echo 的概念，就是反射。很多時候在 KTV 唱歌時，大家都喜歡加 echo ，聽起來才夠台。其實那不叫 echo，那叫做 delay。而 echo 的實作，通常是透過 delay 做出來的，原理後述。

然後 echo 會依照介質不同，依照物質的角度差異（嚴格講還有溫度與濕度），呈現不同的音色，只是大部分的人是無法察覺，通常在錄音軟體裡都有相關參數可以調整，達到模擬效果。

　　　※

#Delay 相對於 Echo 就單純了，算是被人類發明出來的東西。基本概念就是：

把原始聲音複製一段

然後延後播放。

不牽扯真實的空間波形傳遞的問題。所以 Delay 是可以製造出來的，而且也可以模擬 echo 。

我剛開始在玩 MIDI 編曲時，沒有什麼硬體資源，只有簡單的 SB16 聲霸卡（那時候我還沒買音源卡），一開始也不知道啥叫效果器，但是知道聽的音樂中有那種很有空間感的、短暫的反覆旋律的聲音，不管反覆的是人聲、還是樂器聲音。所以，我就在編曲時：

複製同一個音軌，把聲音調小

整個音軌往後搬 16 分個音符

這就是我人工製造出來的 delay。直到後來買了 DB50XG 音源子卡，才知道原來世上有效果器這種東西。

不過在數位設備還不流行的年代，這種複製整個音軌是很大的成本，因為那年代的設備都是類比的，就算用數位 Audio，記憶體也很貴。

Delay 和 Echo 其實差異很大，Echo 在技術上的定義，約莫在 35ms ~ 100ms ，但是 Delay 可以玩很大，甚至有 #無限延伸的技術，讓一個音符無限的長度，著名的吉他手 Santana 就很喜歡玩這東西。

　　　※

Reverb 中文翻譯成 #殘響，指的是訊號源 (例如小提琴) 發射出去之後，撞到介質，然後介質反射新的 echo 能量，此能量再撞到其他介質，再次產生新的能量，如此反覆循環產生的物理現象，稱為 Reverb。真實的世界，到處都是 Reverb，但是要感覺到他麼存在，必須在相對空曠的空間才行。

Reverb 對人類的聽覺效果是產生具體的空間感，像是小舞台、大型巨蛋、或者是表演廳等。不同的空間又會因為建築材質，音樂廳的反射板設計差異，會有不同的反射。

Reverb 對人類聽覺另一個感覺叫做真實感，混音的術語稱為 Wet Sound (濕的聲音)，原始訊號稱為 Dry Sound (乾的聲音)。 Dry + Wet Sound 構成真實的聲音。

在錄音室錄音的目的，是要取得原始聲音訊號 (不管是樂器還是人聲) 的 Dry Sound，也就是沒有殘響的聲音。通常錄音室需要聽過特別的聲學與建築設計，達到最佳的 S/N Ratio (訊號與噪音比)，讓錄音師在錄音過程中，可以取得最佳的 Dry Sound，而 Wet Sound 則在混音階段處理。

不過就在地球上來講，理論上無法取的 S/N 比只要 Singal 的聲音，也就是一定會有 reverb ，只是多少而已。

除了反射造成的 Reverb 現象，另一個更重要的現象就是，這些殘響頻率之間的共振，如果剛好是倍頻關係，例如Source: 220Hz，因為介質差異，產生了 440Hz 或者 5/4 倍、4/3 ... 等倍頻，最後會產生 Overtone，中文稱為 #泛音。而原始聲音稱為 #基音 (Base Tone) ，加上泛音，則是我們在地表上能夠聽得到自然音。如果只有基音，通常也會叫做 #純音 (Pure Tone)，但是在地表，理論上不會有純音。因為泛音的存在，使得聲音變成可聽性，這樣的聲音稱為 #樂音 (Musical Tone)，樂器會依照此特性製造。

Reverb 是個非常複雜的技術，特別是那些想要呈現演唱會後製專輯的處理，要達到 #自然，或者還原現場溫度，Reverb 的處理是非常關鍵的。

　　　※

脈衝響應 (Impulse Responses, IRs) 是記錄聲音訊號在系統中的動態反應、外部空間的變化、額外時間的改變。

也就是說在一個固定空間裡，例如雪梨歌劇院，不同的區域的不同座位，都有上述的值可以記錄，然後只要在雪梨歌劇院裡每個座位都做 IRs 數據的採樣，最後透過演算法就可以呈現出特定地方的音場特性，包含計算出 Reverb、Delay、Echo ... 等。

音樂製作很多產品，以此為主要概念，設計很多產品，軟體、硬體都有。裡面通常會提供大量的資料庫、參數，像是雪梨歌劇院就是著名的 waves 裡的 IRs 參數。

　　　※

文章開頭提到我對於 "即時" 的感覺，其實是源自於以前編曲時，設備不好，那時候用很多軟體取樣音源，音源檔案是放在硬碟，透過 MIDI 訊號發出，經過電腦運算、取得音源檔、送到錄音介面播放出來，經常感覺會 delay，後來透過 #ASIO (一個標準協議) 得知 Buffer Size 太大，換言之，聲音訊息會 Buffering 在電腦的時間太久，造成最後送到錄音介面 (D to A) 的時間太久，導致從鍵盤按下一個音，到聽到的時間，感覺不是即時。經過很多次的實驗，最後才歸納出 20ms ~ 50ms 這個時間區間，是我自己定義的 "即時" ...

參考資料

原始資料

發表時間：2019/08/24
原文連結

參考資料​

原始資料​

參考資料

原始資料