數字訊號處理/聲音處理
數字領域的聲音儲存在一個或多個離散樣本陣列中,每個樣本陣列對應一個聲道(例如,立體聲需要兩個聲道,因此需要兩個樣本陣列)。每個樣本之間的時間間隔是常數,由要表示的資料型別決定。由於我們對聲音感興趣,並且人類聽覺的極限上限通常被認為是 20 kHz,因此可以使用奈奎斯特-夏農取樣定理來確定樣本之間的間隔,以便準確地重建我們感興趣的訊號。
該定理指出:
| “ | 如果訊號是基帶的,並且取樣頻率大於訊號頻寬的兩倍,則可以從其樣本中精確地重建連續時間訊號。 | ” |
本質上,這意味著一個限制在一定範圍內的訊號(可聽聲音:~20 Hz 到 20 kHz)可以在以大於頻寬兩倍的速率取樣時無誤地重建。 紅皮書音訊 CD 標準將取樣率設定為 44,100 Hz。選擇此頻率是為了留下足夠的開銷(如奈奎斯特-夏農定理所要求的那樣),但至少可以支援高達 22 kHz。
44.1 kHz 是消費級裝置上數字音訊取樣率的通用標準,但是 48 kHz 在處理電影或影片時很常見。此外,許多錄音工程師更喜歡以 88.2 或 96 kHz 記錄古典音樂或其他複雜的音樂——有些人聲稱能夠感知到差異。
從 48 kHz 轉換為 44.1 kHz 時,有時會發生聲音模糊效應,因為計算是浮點運算,這在計算機上本質上是不精確的。從 88.2 kHz 轉換為 44.1 kHz 或 96 kHz 轉換為 48 kHz 更容易執行,因為執行轉換的計算機或裝置只需要丟棄一半的樣本。為了繞過這個問題,可以使用高質量的數模轉換器將例如 48 kHz 訊號還原為模擬形式,然後饋送到另一個高質量的模數轉換器以 44.1 kHz 的速率重新取樣訊號。這種技術是錄音棚的常見做法,在錄音棚中,可以信任高階裝置完美地進行轉換,但在其他情況下,軟體或硬體中音訊轉換引起的聲音失真可能無關緊要。
取樣頻率決定音訊訊號的時間分量,而每樣本位數用於描述幅度。 紅皮書音訊 CD 將每個樣本儲存為 16 位有符號整數。這意味著,當將音訊訊號轉換為在 CD 上使用時,每個樣本的值都被量化為整數以適合 -32768 到 +32767 的範圍。
波形檔案包含代表音訊聲音的資料。此資料儲存格式是一種未壓縮格式。這意味著資料可以傳送到數模處理器進行播放,而無需額外的解壓縮步驟。這也意味著此格式將消耗大量的記憶體。