感覺系統/計算機模型/聽覺系統模擬/感知音訊編碼
本頁回顧了感知音訊編碼的基本原理。解釋了潛在的心理聲學原理,並指出了與耳蝸濾波特性和更高皮層處理階段的關係。
Mp3 (MPEG-1 Layer 3, MPEG-2 和 MPEG-4 高階音訊編碼 (AAC) 的前身) 可能是目前最知名的利用音訊訊號的感知編碼的音訊格式。 AAC 是一種效率更高的擴充套件,通常能實現更好的音質,允許更廣泛的頻寬範圍,但依賴於與 Mp3 相同的編碼原理。這兩種格式都由 ISO 和 IEC 標準化,但只有解碼器是完全指定的,而編碼器實現是開放的。這導致了各種可用的編碼器在再現質量、可實現的位元率、效能和編碼效率方面存在差異[1]。
與傳統的訊號壓縮演算法不同,傳統的訊號壓縮演算法的目標是用最少的位元數來表示資訊,同時保持訊號再現質量,而感知音訊編碼則考慮了人類聽覺系統的知識,透過去除對大多數聽眾來說感知上無關緊要的資訊來降低位元率。這種 有失真壓縮 是透過探索人類聽覺系統的特性和統計冗餘來實現的。Mp3 常用的編碼位元率為 128 kbit/s,高效的編碼器通常在壓縮 CD 音質音訊 (16 位 PCM,44.1 kHz,≈ 1411 kBit/s) 時能實現大約 10 倍的資料減少。換句話說,大約 90% 儲存在 CD 上的資料是聽眾無法感知的。CD 音質是使用者在聽音樂時通常期待的(關於 CD 音質是否足以再現模擬原始音訊,存在著長期爭論。在許多不同的專家意見中,以下兩個參考資料[1][2] 可能會對進一步閱讀感興趣)。對更高效的音訊編碼的需求來自於網路、多媒體系統和儲存應用,而 Mp3 最初是為更高效地傳輸視聽內容而建立的。
感知音訊編碼的理論極限由 Johnston[3] 進行了研究,這導致了 “感知熵” 的概念。根據測量結果,CD 音質音訊的感知熵估計在每樣本 2 位元左右。最先進的編碼器證實了這種效率,用於透明(近乎)CD 音質音訊編碼[4]。感知編碼演算法的質量通常透過聽覺測試來評估,最近也與一種標準化的演算法結合使用,該演算法用於客觀地測量感知音訊質量,稱為 感知音訊質量評估 (PEAQ)。

大多數感知音訊編碼器可以用圖中所示的基本架構來描述。分析濾波器組近似於人類聽覺系統的時域和頻域分析特性。輸入被分割成幀,然後被轉換為可以被量化和編碼的一組引數。量化和編碼階段利用統計冗餘,並依賴於感知模型提供的閾值進行位元分配和量化噪聲整形。感知模型描述了掩蔽閾值作為編碼頻率的函式。最後,編碼階段使用標準的 無損編碼技術,例如 霍夫曼編碼。關於技術演算法解釋和示例實現,請參考 J.O. Smith 的線上書籍。
感知音訊編碼的基本思想是將量化噪聲整形,使其被音訊訊號本身掩蔽,從而不被聽眾感知。這是透過利用心理聲學原理實現的,包括絕對聽覺閾值、臨界頻帶頻率分析和聽覺掩蔽[4]。由於播放電平在編碼階段通常是未知的,因此通常使用關於絕對聽覺閾值的保守估計在編碼過程中進行訊號歸一化。聽覺掩蔽描述了現象,其中一種聲音的感知受到另一種聲音的存在的影響。掩蔽效應發生在頻域(同時掩蔽)和時域(非同時掩蔽)。

對於同時掩蔽,耳蝸的頻率解析度起著至關重要的作用。在耳蝸內部,頻率到位置的轉換髮生,並且建立了針對不同頻帶調諧的不同區域。這些不同的頻率區域被稱為聽覺臨界頻帶(或臨界頻寬)。臨界頻寬在高達 500 Hz 時保持恆定 ≈ 100 Hz,並且在 500 Hz 以上增加到中心頻率的 20% 左右[4]。前 24 個臨界頻帶由巴克刻度描述。一個音調的存在會導致基底膜的激發,這會影響其臨界頻帶內第二個音調的檢測閾值(帶內掩蔽)。此外,相鄰頻帶也會受到影響(帶間掩蔽)。相鄰頻帶的影響由擴充套件函式來描述。右側圖顯示了不同強度臨界頻帶噪聲掩蔽器的測量擴充套件函式。如圖所示,掩蔽器在掩蔽高頻帶方面比低頻帶更有效,這被稱為掩蔽的上移現象。擴充套件函式的原因被認為是耳蝸機械濾波特性的副產品,其中外毛細胞放大基底膜的運動以提高頻率解析度[5]。掩蔽上移現象的原因尚不清楚,除了機械激發,抑制也起作用[6]。此外,如圖中第二個峰值出現在大約 2 kHz(1 kHz 的第二諧波)處,在更高的聲壓級下,內耳和中耳的非線性傳遞特性也起作用[5]。
強噪聲或音調掩蔽的存在會在基底膜上產生足夠的興奮,從而有效地阻斷其臨界頻帶內較弱訊號的傳輸,並透過掩蔽的擴散影響相鄰頻帶。已觀察到兩種型別的同時掩蔽:噪聲掩蔽音調和音調掩蔽噪聲。對於噪聲掩蔽音調,音調的存在可以預測被掩蔽噪聲頻譜的閾值;而對於音調掩蔽噪聲,噪聲的存在可以預測被掩蔽音調的閾值。據報道,純音和臨界頻帶限制噪聲的閾值有所不同。[4] 至於音樂的感知編碼,這些閾值會在考慮擴散函式之前根據感知編碼器的時頻分析內容進行插值。客觀信噪比 (SNR) 可能非常低,例如 20 dB,但取決於音訊內容,而主觀 SNR 足夠高以實現透明編碼。[5] 作為比較,音訊 CD 的 SNR 為 96 dB。
非同時掩蔽
[edit | edit source]
音訊訊號中的突然瞬變(或強烈的攻擊)會在時間域中產生掩蔽效應。如圖所示,瞬變之前(前掩蔽或後掩蔽)和之後的感知都會受到影響。後掩蔽區域持續時間約為毫秒,而前掩蔽區域持續時間更長,約為十分之幾毫秒。[4]
時間掩蔽尚未完全瞭解,是一個活躍的研究課題。然而,有證據表明,高階皮層處理參與了這種現象。這種效應是否與聲音的整合、神經處理的中斷或抑制以及/或傳輸速度的差異有關尚不清楚。前掩蔽和後掩蔽表現出不同的特徵,因此被認為源於人類聽覺系統的不同屬性。[7]
掩蔽和聯合立體聲編碼
[edit | edit source]音訊編碼中的一種常見的有效技術是聯合立體聲編碼。由於音樂訊號的左右聲道通常高度相關,因此有時對音訊訊號進行求和/差值 (L-R, L+R) 編碼更為有效。在 Mp3 的情況下,求和/差值編碼的潛力沒有得到充分利用,一種有效的技術將比較左右聲道和求和/差值編碼的閾值,並動態選擇效率更高的編碼方式。在計算掩蔽閾值時,需要特別注意,因為聯合聲道編碼會導致由於雙耳聆聽而產生的可聽偽影。[5]
偽影 (w: 壓縮偽影)
[edit | edit source]對於 Mp3 和 AAC,編碼位元率是選擇的,而不是壓縮因子,因為壓縮因子是內容相關的。較低的位元率會導致更高的壓縮比,而較高的位元率會導致較低的壓縮比,以及較低的可聽偽影機率。這導致工作區域(或位元率),其中特定演算法表現最佳,並且僅在更高的位元率下略有改善。[1] 與我們聆聽 CD 時習慣的播放裝置的噪聲和失真偽影不同,感知編碼器產生的可聽偽影可能令人討厭。如果位元率對於透明編碼來說太低,則產生的噪聲和失真可以描述為時變訊號,其中失真不是諧波相關的,噪聲是帶限的,並且由於頻寬可能在幀之間變化,訊號可能聽起來很粗糙。[1]
頻寬損失
[edit | edit source]如果編碼器用盡位元,則在頻率頻寬和低頻內容的精確編碼之間存在基本權衡。這會導致編碼的頻率頻寬在幀之間發生變化,聽起來非常令人不快。通常,這種偽影透過限制低位元率的頻率頻寬來抵消。
前奏
[edit | edit source]前奏是最難避免的錯誤,與感知編碼器的幀大小有關。如果音訊訊號的強攻擊發生在幀的中間,則由於幀的大小,計算出的噪聲閾值可能會擴散到後掩蔽區域,從而變得可聽。有多種技術可以最大限度地減少前奏的發生,例如可變幀大小分析濾波器組。[1]
與耳蝸的濾波特性有關
[edit | edit source]總而言之,感知編碼廣泛利用了人類聽覺系統的特性。絕對聽閾值與耳蝸的特性有關,但也與中耳和外耳的聲學和機械特性有關。在同時掩蔽中,臨界頻帶內和臨界頻帶間掩蔽閾值(擴散函式)源於耳蝸的濾波特性。但是,掩蔽的向上擴散不僅可以透過耳蝸的特性來解釋,其他現象,如抑制,也可能發揮作用。最後,時間掩蔽現象只能透過聽覺系統中高階皮層處理來解釋,並且由聯合立體聲編碼產生的偽影,從而涉及雙耳聆聽以進行檢測,表明人類聽覺系統的各個階段都參與其中。
- ↑ a b c d e Karlheinz Brandenburg。Mp3 和 aac 解釋。在音訊工程學會會議:第 17 屆國際會議:高質量音訊編碼。音訊工程學會,1999 年。
- ↑ J. R. Stuart 為了聲學復興音訊。關於高密度 CD 載體的高質量音訊應用的建議。1995 年。
- ↑ James D Johnston。使用噪聲掩蔽準則估計感知熵。在 IEEE 1988 年聲學、語音和訊號處理國際會議論文集。
- ↑ a b c d e Ted Painter 和 Andreas Spanias。數字音訊訊號感知編碼演算法綜述。在 IEEE 1997 年第 13 屆數字訊號處理國際會議論文集。
- ↑ a b c d e f Nikil Jayant、James Johnston 和 Robert Safranek。基於人類感知模型的訊號壓縮。IEEE 會刊,81(10):1385-1422,1993 年。
- ↑ Andrew J Oxenham 和 Christopher J Plack。抑制和掩蔽的向上擴散。美國聲學學會雜誌,104(6):3500-3510,1998 年。
- ↑ Renata Filippini。揭示聽覺時間掩蔽,2015 年。 http://hearinghealthmatters.org/pathways/2015/unmasking-auditory-temporal-masking/