跳轉到內容

聲音合成理論/數字領域的聲音

來自華夏公益教科書,為開放世界提供開放書籍

數字領域的聲音

[編輯 | 編輯原始碼]

數字系統(如計算機)和格式(如 CD)顯然是最流行和最普遍的儲存和操作音訊的方法。自 1980 年代初引入光碟以來,數字格式提供了越來越大的儲存容量以及以可接受的質量儲存音訊資訊的能力。雖然模擬格式仍然存在(黑膠磁帶),但它們通常服務於利基受眾。數字系統在現代音樂技術中無處不在。必須強調的是,關於模擬域或數字域是否優越沒有爭議,但以下內容提供了一些在數字域中處理音訊的理想特徵。

  • 儲存。現代硬碟驅動器能夠儲存的數字音訊資料量遠遠大於磁帶系統。此外,我們可以選擇捕獲音訊資料的質量,這與檔案大小和其他因素直接相關。
  • 控制。透過以數字方式儲存音訊資訊,我們可以對資料執行強大且複雜的操作,否則這些操作將非常難以實現。
  • 耐用性。數字音訊可以在裝置之間複製,沒有任何資訊丟失。此外,許多系統採用糾錯碼來彌補光碟等物理數字格式的磨損。

數字 <-> 模擬轉換

[編輯 | 編輯原始碼]

聲學資訊(聲波)被視為訊號。如前一章所示,我們傳統上將這些訊號視為隨時間變化的幅度。在模擬系統中,這通常意味著幅度由連續電壓表示;但在數字系統內部,訊號必須儲存為離散值的流。


圖 2.1。數字 <-> 模擬轉換過程的概述。


以這種方式儲存的數字資料沒有真正的物理意義;人們可以將計算機上的歌曲描述為僅僅是一個陣列數字;這些數字沒有意義,除非系統中存在一個能夠適當地解釋每個數字的過程。圖 2.1 顯示了捕獲模擬聲音並將其轉換為數字值流以在這樣的系統中儲存和操作的過程概述。步驟如下


  1. 麥克風等輸入將聲學氣壓變化(聲波)轉換為電壓變化。
  2. 模數轉換器 (ADC) 透過在某個時間點對電壓進行“快照”並根據其幅度為其分配一個值,將變化的電壓轉換為數字值的流。它通常每秒進行數千次這樣的“快照”,其速率稱為取樣率
  3. 數值資料儲存在數字系統上,然後由使用者隨後進行操作或分析。
  4. 數值資料被重新讀取並從數字系統中流出。
  5. 數模轉換器 (DAC) 將數字值的流轉換回變化的電壓。
  6. 揚聲器將電壓轉換為氣壓變化(聲音)。


儘管每個階段的訊號以不同的形式出現(聲音能量、數字值等),但資訊是類似的。但是,由於轉換過程的性質,這些資料可能會被操作和扭曲。例如,ADC 中的低取樣率值或其他因素可能意味著連續模擬訊號沒有用足夠的細節表示,隨後資訊將被扭曲。麥克風等物理裝置中也存在缺陷,這些缺陷會在某種程度上進一步“染色”訊號。出於這個原因,音樂家和工程師的目標是使用最優質的裝置和流程,以在整個過程中保持原始聲音的完整性。音樂家和工程師也必須考慮他們的音樂在消費之前將經過的其他流程(無線電傳輸等)。

自然聲學形式的聲波可以被認為是連續的;也就是說,它們的時域圖在所有縮放因子上都是光滑的線,沒有任何斷裂跳躍。我們不能有這些斷裂,或不連續性,因為聲音不能在兩個值之間瞬時切換。這方面的一個例子可能是理想化的波形,如方波 - 在紙上,它在某個點瞬時地在 1 和 -1 幅度之間切換;然而,揚聲器不能根據物理定律在沒有時間的情況下跳躍到兩個點之間,錐體必須沿著一條連續的路徑從一個點移動到另一個點。

圖 2.2。連續波形(灰色)的離散樣本(紅色)。

取樣是將連續的聲學波形轉換為離散數字值流的過程。ADC 以固定的速率測量輸入的幅度,從而建立代表波形數字的數值流。然後,透過將這些值傳遞到 DAC 並適當驅動揚聲器來建立輸出。透過每秒測量幅度數千次,我們建立了聲音的“影像”,其質量足以讓人耳辨別。我們越增加這種取樣率,波形就越精確地表示和再現。

奈奎斯特-夏農取樣定理

[編輯 | 編輯原始碼]

訊號的頻率對其表示有影響,特別是在非常高的頻率下。如前一章所述,正弦波的頻率是每秒的週期數。如果我們的取樣率為每秒 20000 個樣本(20 kHz),那麼很明顯,像 9000 Hz 這樣的高頻正弦波將比 150 Hz 的正弦波具有更少的“快照”。最終,會達到一個點,即沒有足夠的取樣點來記錄波形的週期,這導致了以下重要要求


取樣率必須大於表示的最大頻率的兩倍。


為什麼呢?表示正弦波所需的最小取樣點數是兩個,但我們需要至少稍微多一點,這樣我們就不依賴於相位(樣本正好是正弦波頻率的兩倍,樣本可能落在正弦波的峰值上,或落在零交叉點上)。在此時可能很明顯,使用僅兩個點來表示像正弦波這樣的連續曲線會導致粗略的近似 - 方波。在數字系統內部,情況確實如此。但是,ADC 和 DAC 都有設定為取樣率一半的低通濾波器(最高可表示頻率)。這意味著對於輸入和輸出,任何高於截止頻率的頻率都會被移除,因此隨之而來的是,粗略的正弦表示 - 理論上的方波 - 被濾波成單個頻率(即正弦波)。由此,我們得到了兩個數學結果



其中 是取樣率, 是訊號中最高頻率。 奈奎斯特頻率。在錄音時,奈奎斯特頻率以上的頻率通常會被濾波器阻擋,然後轉換為數字域;如果沒有這樣的過程,就會出現頻率分量摺疊,也稱為混疊

取樣精度和位深

[edit | edit source]

已經確定,取樣率越高,數字系統中波形的表示就越準確。然而,儘管有許多理由和論據支援更高的取樣率,但有兩個通用標準:每秒 44100 個樣本和每秒 48000 個樣本,前者是最常見的。主要考慮因素是,人類聽力範圍最大可達(因人而異)約為 20000 Hz。高於此頻率的聲音是不可聽的。以 44.1 kHz 為例,我們發現奈奎斯特頻率為 22050 Hz,這已經超過了人類聽覺系統能夠感知的範圍。還有其他原因導致了這種特殊的取樣率,但超出了本書的範圍。

圖 2.3. 增加取樣率和位深對錶示連續模擬訊號的影響。


在考慮取樣過程時,還有一個重要的因素需要考慮:位深。位深表示測量振幅的精度。就像在轉換過程中每秒的樣本數量有限一樣,樣本點的振幅值也有限,值越大,精度就越高。在大多數標準數字音訊系統(Hi-Fi、CD)中,常見的位解析度是 16 個二進位制 ,它允許在一個時間點有 65536 () 個單獨的振幅值。較低的位值會導致更大的聲音失真 - 一個 2 位系統 () 只能容納四個不同的振幅,這會導致對輸入訊號的大量不準確近似。

華夏公益教科書