跳轉至內容

數字音訊領域

0% developed
來自華夏公益教科書,開放書籍,開放世界
數字音訊領域


數字系統(例如計算機)和格式(例如 CD)顯然是最流行和最常見的音訊儲存和操作方法。自 1980 年代初推出 光碟 以來,數字格式提供了越來越大的儲存容量,並且能夠以可接受的質量儲存音訊資訊。雖然 模擬 格式仍然存在(黑膠唱片磁帶),但它們通常服務於利基受眾。數字系統在現代音樂技術中無處不在。必須強調的是,關於哪個領域,無論是模擬還是數字,更優越,沒有爭議,但以下提供了一些在數字領域處理音訊的理想特性。

  • 儲存。現代硬碟能夠儲存的數字音訊資料量遠遠大於磁帶系統。此外,我們可以選擇捕獲的音訊資料的質量,這與檔案大小和其他因素直接相關。
  • 控制。透過以數字方式儲存音訊資訊,我們可以對資料執行強大而複雜的操作,這些操作在其他情況下將非常難以實現。
  • 耐久性。數字音訊可以在裝置之間複製,沒有任何資訊丟失。此外,許多系統採用 糾錯碼 來補償諸如光碟之類的物理數字格式的磨損。

數字 <-> 模擬轉換

[編輯 | 編輯原始碼]

聲學資訊(聲波)被視為訊號。如前一章所示,我們傳統上將這些訊號視為隨時間變化的幅度。在模擬系統中,這通常意味著幅度由連續電壓表示;但在數字系統內部,訊號必須儲存為離散值的流。


圖 2.1。數字 <-> 模擬轉換過程概述。


以這種方式儲存的數字資料沒有真正的物理意義;人們可以將計算機上的歌曲描述為一個簡單的 陣列 數字;這些數字毫無意義,除非系統中存在一個過程,可以適當地按順序解釋每個數字。圖 2.1 顯示了捕獲模擬聲音並將其轉換為數字值流以供儲存和操作的流程概述,例如在這樣的系統中。步驟如下

1。諸如麥克風之類的輸入將聲學氣壓變化(聲波)轉換為電壓變化。

2。模數轉換器 (ADC) 透過在時間點對電壓進行“快照”並將根據其幅度為其分配一個值來將變化的電壓轉換為數字值流。它通常每秒執行數千次這樣的“快照”,其速率稱為取樣率

3。數字資料儲存在數字系統上,然後由使用者進行後續操作或分析。

4。數字資料被重新讀取並從數字系統中流出。

5。數模轉換器 (DAC) 將數字值流轉換回變化的電壓。

6。揚聲器將電壓轉換為氣壓變化(聲音)。

雖然每個階段的訊號以不同的形式出現(聲音能量、數字值等),但資訊是類似的。但是,由於轉換過程的性質,這些資料可能會被操縱和扭曲。例如,ADC 的低取樣率值或其他因素可能意味著連續的模擬訊號沒有用足夠的細節表示,隨後資訊將被扭曲。麥克風等物理裝置中也存在缺陷,這些缺陷以某種方式進一步“著色”訊號。正是出於這個原因,音樂家和工程師的目標是使用最優質的裝置和流程,以在整個過程中保持原始聲音的完整性。音樂家和工程師還必須考慮他們的音樂在消費之前將經歷的其他過程(無線電傳輸等)。

聲波以其自然聲學形式可以被認為是連續的;也就是說,它們的時間域圖在所有縮放因子上都是平滑的線條,沒有任何斷裂跳躍。我們不能有這些斷裂或不連續性,因為聲音不能在兩個值之間瞬時切換。這方面的例子可能是理想化的波形,如 方波 - 在紙上,它在一點上瞬時在 1 和 -1 幅度之間切換;然而,揚聲器由於物理定律,不能在任何時間內跳躍兩個點,錐體必須在連續的路徑中從一個點移動到另一個點。

圖 2.2。連續波形(灰色)的離散樣本(紅色)。

取樣是將連續的聲學波形轉換為離散數字流的過程。ADC 以固定的速率測量輸入的幅度,從而建立一個表示波形的數字值流。然後透過將這些值傳遞到 DAC 來建立輸出,DAC 適當地驅動揚聲器。透過每秒測量幅度數千次,我們建立了聲音的“影像”,其質量足以讓人耳識別。我們越增加這種取樣率,波形就被越準確地表示和再現。

奈奎斯特-夏農取樣定理

[編輯 | 編輯原始碼]

訊號的頻率對其表示有影響,特別是在非常高的頻率下。如前一章所述,正弦波的頻率是每秒的週期數。如果我們的取樣率為每秒 20000 個樣本(20Khz),那麼很明顯,像 9000 Hz 這樣的高頻正弦波將比 150 Hz 的正弦波具有更少的“快照”。最終,會達到一個點,即沒有足夠的樣本點來記錄波形的週期,這將我們引匯出以下重要結論

系統的取樣率定義了最大可表示頻率,該頻率是取樣率的一半。


為什麼是這樣?表示正弦波所需的最小樣本點數為兩個。此時可能很明顯,僅使用兩個點來表示諸如正弦波之類的連續曲線會導致粗略的近似 - 方波。並且,在數字系統內部,確實如此。但是,ADC 和 DAC 都有在取樣率的一半(最高可表示頻率)處設定的 低通濾波器。這意味著對於輸入和輸出,任何高於截止頻率的頻率都會被移除,並且由此得出,粗略的正弦表示 - 理論上的方波 - 會被濾波成一個單一頻率(即正弦波)。由此,我們得到兩個數學結果



其中 是取樣率, 是訊號中最高的頻率。 是使用 可以表示的最高可能頻率,被稱為奈奎斯特頻率。由於存在濾波器來阻擋高於奈奎斯特頻率的頻率,因此這些頻率並不存在;如果沒有這些過程,就會出現頻率分量摺疊,也就是所謂的混疊

取樣精度和位深度

[edit | edit source]

已經確定,取樣率越高,數字系統中波形的表示就越準確。然而,儘管有許多關於更高取樣率的原因和論據,但有兩個普遍的標準:每秒44100個樣本和每秒48000個樣本,前者最為常見。這主要考慮的是,人類聽覺範圍最大可達大約(因人而異)20000 Hz。高於此頻率的聲音是不可聞的。以 44.1 Khz 為例,我們發現奈奎斯特頻率為22050 Hz,這超出了人類聽覺系統能夠感知的範圍。這個特定的取樣率還有其他原因,但這超出了本書的範圍。

圖 2.3. 提高取樣率和位深度對錶示連續模擬訊號的影響。


在考慮取樣過程時,還有一個重要的因素需要考慮:位深度。位深度表示測量幅度的精度。就像在一個轉換過程中每秒的樣本數量有限一樣,一個取樣點的幅度值也有限,數量越多,精度越高。大多數標準數字音訊系統(Hi-Fi、CD)中常見的位解析度是 16 個二進位制,這允許在某個時間點有 65536 () 個單獨的幅度值。較低的位值會導致更大的聲音失真 - 一個兩位系統 () 只能允許四個不同的幅度,這會導致對輸入訊號的大量不準確近似。

華夏公益教科書