工程聲學/人耳與聲音感知
摘要: 本頁面將簡要概述人類聽覺系統,換能器類比,以及與聽覺系統特定特徵相關的一些非線性效應。將介紹來自心理聲學學科的結果。
人耳是一個小型物理裝置,具有不成比例的大特性。一方面,它可以承受聲壓級接近 1kPa 的聲音,這幾乎是自然界中最響亮的聲音,另一方面,它可以檢測到對應於鼓膜位移約為氫原子直徑十分之一的聲壓級。[1] 如果將大腦中進行的資訊處理和它引起的生理反應包括在內,人們就會明白為什麼人類聽覺系統從二十世紀初開始就一直讓研究人員頭疼。
一些研究人員將聽覺系統視為一個非常複雜的主動換能器;它首先以聲學方式傳遞波資訊,然後以機械方式,然後以流體動力學方式,最後以電動力學方式傳遞給大腦。[2] 其他人,比如傳奇的喬治·馮·貝克西,則堅持認為,在考慮聽覺系統的行為時,應該考慮活有機體的持續再生性質。[3]
然而,人類並不陌生於複雜的問題。畢竟,我們已經登上了月球,那麼現在到底發生了什麼?
為了探索任何物理系統的行為,需要一組描述該系統的變數。這些變數應該定義良好,並且自然地源於控制系統行為的物理原理。相同的物理原理也為任何研究人員提供了經過充分驗證的方法來評估什麼構成有效的測量。
此外,在任何行為良好的物理系統中,實驗者都可以控制變數,以至於他或她可以保持大多數變數不變,並單獨改變其中幾個變數來評估它們之間的關係,並量化它們的依賴性。
此外,在任何線性系統中,疊加原理都成立,因此同時改變多個變數的總體效果等於從單獨改變每個變數的同時保持其他所有變數不變觀察到的各個貢獻的線性組合。
上面提到的通常構成可以描述為非常快樂的研究人員。然而,當一個人著手評估人類聽覺系統時,就會出現問題,因為聽覺是一種感覺,就像所有其他感覺一樣,它是一個玄妙的過程。為了解決這個問題,人們必須冒險進入心理物理學和心理測量原理的領域。眾所周知,人們不能直接測量感覺,但人們可以測量感覺引起的反應。[4]
使用上述方法,人們可以測量諸如剛好可覺察的差異、可感知的興奮、神經活動增加等量。然而,這些測量的有效性或相關性不能輕易地透過第一原理來確認。[1] 人類聽覺系統的性質使得人們無法分離並獨立地改變任何感興趣的變數(無論它們是如何定義的),即使可以,疊加原理通常也不適用。
在承認量化聽覺系統行為和開發聽覺模型所涉及的困難之後,人們應該看看非線性的具體來源,以及這種行為對聽覺系統施加的機制。可能沒有比所謂的聲反射、聽覺反射或耳內反射更好的例子了。
人類的聲反射是指中耳肌肉控制聽骨(中耳的小骨頭)的行為在強聲刺激下趨於緊張,從而使內耳更硬,從而限制鐙骨(鏈條中最後一塊骨頭)的運動。鐙骨運動的這種減少相當於對透過中耳傳遞到內耳的振動的幅度進行實際的而不是感知的減少。這種反射有助於保護敏感的內耳在暴露於響亮聲音時免受損害。
不幸的是,儘管速度很快,但聽覺反射不是瞬時反應。對於低頻,響應需要 20 到 40 毫秒才能引發,因此不能防止槍聲和爆炸之類的響亮衝擊聲。[5] 隨著聽覺反射的開始,整個耳朵表現出明顯的聲阻抗變化,這在 1934 年被 Geffcken 觀察到,並在隨後的幾年裡被 Bekesy 和其他研究人員測量到。然而,有人認為,聽覺反射的開始發生在非常高強度的聲波下,因此它對感知的影響有限。[6] 另一方面,可以透過例如發聲來自願引發相同的反射。根據 Lawrence A. Kinsler 的說法,聽覺系統產生的響應似乎主要歸因於耳朵的機械特性,因此也歸因於聲音感知。[5] 不管聽覺反射的確切性質是什麼,或者它影響最大的確切範圍是什麼,這都超出了本文的範圍。
- 壓力感測器在特定位置測量聲場強度的值,與人在同一位置感知同一聲場的方式之間存在很大差異。
- 我們需要使用一個變數,讓我們可以對我們認為響亮或強烈的聲波進行賦值,以及關於如何測量這些量的指南。
- 雖然聽覺反射的影響在更高的聲強下可能更明顯,但它不是一個階躍函式。它會逐漸開始發揮作用,以及它改變感知的方式。
- 測量的聽覺反射效果因人而異,並且受許多因素的影響。
聲音的強度和響度是兩個高度相互依賴的量。響度屬於聲音的心理屬性,而強度是一個精確定義和可測量的物理量。由於它們之間的相似性,這兩個量曾經被認為是一樣的,因為如果增加特定聲音的強度,聲音就會變得更響亮。[4] 用最簡單、最清楚的術語來說:強度是測量的聲級,響度是感知的聲級。
測量的聲級用強度和聲級來表示,而感知的聲級用響度和響度級來表示。
聲音強度定義為單位面積上的聲功率,單位是瓦特每平方米。
然而,人耳能感知的聲強範圍從 1x10−12Wm−2 到 1x102Wm−2(超過此強度會導致永久性耳聾)。這使得最大值比最小值大 10 000 000 000 000 倍。[7]
為了更直觀地理解並避免使用繁瑣的數字,我們使用 **聲強級** **IL**,它被定義為相對於 10x10−12 Wm−2 的聲強,採用對數刻度,單位為分貝。
.
在空氣中的平面波以及標準溫度和平均壓力下,聲壓和聲強之間存在以下關係
其中 ρ 為空氣密度,c 為空氣中的聲速。透過以下操作
右側的表示式稱為 **聲壓級**,它與聲強級相同,但用聲壓表示。使用的參考壓力為 20μPa。它非常接近在沒有噪音的情況下空氣中平均最低可聽聲壓。[1] 需要注意的是,最小可聽聲壓是針對多個受試者的平均值,因此對於一定比例的人群來說,負聲壓級是可感知的,即他們可以感知比參考壓力更小的聲壓。選擇的參考壓力級透過上述關係對應於參考聲強,使得 SPL 和 IL 相同。
“響亮”、“不太響亮”、“極其響亮” 等定性表達用於描述響度。儘管這些表達對於描述特定個體的感受是足夠的,但它們在量化結果方面做得非常差。上述定性表達已經透過使用 **響度級** 和 **響度** 對於純音(即正弦波)進行了量化。
特定測試音的 **響度級** 是響度的間接測量,它被定義為與測試音聽起來一樣響亮的 1000 Hz 純音的 **聲壓級 (SPL)**。[1] 選擇 1000 Hz 音調是任意的,並作為標準保留下來。響度級用方來測量。剛剛可聽的 1000 Hz 音調的響度級被定義為 3 方,因為 1 kHz 音調的最小可感知 SPL 為 3 dB。方值增加是對數的,因為 SPL 是用分貝測量的。
**響度級** 在量化感受方面非常有用,但它無法提供關於不同響度級聲音之間關係的資訊。換句話說,它無法提供關於例如 20 方的聲音比 50 方的聲音響多少的資訊。為了解決這個問題,我們使用 **響度**,它的單位是宋。**響度** 基於 40 dB,1000 Hz 純音,被定義為響度為 1 宋。響度標度是透過增加或減少 1 kHz 音調的 SPL 直到它“聽起來比以前響兩倍”或“靜音一半”等來推匯出來的。響度不斷減半建立了標度的其餘部分。其餘音調的 **響度** 是透過相同的等響度判斷來確定的,這種判斷提供了 **響度級**。[4]
響度和響度級最好用曲線圖來表示,並且在繪製純音的 SPL 時最為有用,這些曲線稱為等響度曲線或 弗萊徹和芒森曲線,以早期研究者的名字命名,但自從這些測量首次進行以來,響度測量的技術已經發生了重大改變和標準化。
-
等響度曲線
關於上述曲線的一些觀察結果
- 等響度曲線是連線等響度點的曲線。它們適用於持續時間超過 500 毫秒的聲音,這些值是正常聽力的平均值。[8]
- 由於使用的是 1000 Hz 音調作為標準,因此該音調在任何響度級的響度級都等於其 SPL。
- 音調的 SPL 是在受試者不在聲場中測量,因為聽者的存在會改變聲場。
- 響度是在消聲室中測量的,聽者坐在距離聲源超過 1 米的地方,它被定義為用於正面入射波。非正面入射波具有不同的特性。
- 注意曲線在 3 kHz 附近的“凹陷”。該頻率對應於外耳的共振頻率,並且也接近人類語音的中間頻率。圖表上的“凹陷”轉化為對 3 kHz 附近的聲音更高靈敏度。不幸的是,這也轉化為來自該區域頻率的更高損傷風險。
一些生物學知識
[edit | edit source]耳蝸
[edit | edit source]**耳蝸** 或內耳構成耳朵的流體動力學部分。它是一個由骨骼形成的小而空心的蝸牛形結構,充滿無色液體。它的展開長度約為 35 毫米,橫截面積在靠近內耳的一端約為 4 毫米2,在遠端逐漸變細至約 1 毫米2。[1]
它充滿 **兩種** 不同的液體,這些液體被分成 **三個** 不同的通道,這些通道從鐙骨的底部一直延伸到耳蝸的頂端,但是兩個通道被瑞利膜隔開,瑞利膜是薄而靈活的,從流體力學角度來看可以忽略不計。[8] 振動直接從鐙骨(三個聽小骨中的最後一個)的基底板傳遞到所含液體中。耳蝸被中間的 **基底膜** 隔開,基底膜是部分骨質和部分膠狀的膜。正是在這層膜上,柯蒂氏器和臭名昭著的 **毛細胞** 駐紮著。
-
聽覺系統和耳蝸
-
三個充滿液體的空腔
如前所述,基底膜是一種柔性的膠狀膜,縱向將耳蝸隔開。它是耳蝸隔膜的柔性部分(另一部分是骨質的),它包含大約 25000 個神經末梢,這些神經末梢連線到膜表面排列的大量毛細胞上。它從耳蝸底部延伸到耳蝸頂端之前,在此處它在蝸軸處終止。這形成了兩個水動力學上不同的通道,鐙骨基板連線到上通道入口處的 **卵圓窗**,而一個高度靈活的膜稱為 **圓窗** 封閉下通道。兩個通道在頂端透過 **蝸軸** 連線,蝸軸基本上是耳蝸隔膜上的一個間隙。
-
耳蝸縱向剖面圖,顯示基底膜的位置
-
耳蝸力學兩種檢視
傳到鐙骨的振動會在流體中產生聲波,這些聲波沿著上通道傳播,穿過蝸軸並向上返回下通道。由於耳蝸壁相對堅硬,所含流體相對不可壓縮,這會導致基底膜彎曲。為了平衡耳蝸內的壓力,圓窗“鼓出”,從而提供壓力釋放。
基底膜從窄處開始,在卵圓窗附近寬度約為 0.04 毫米,然後在蝸軸附近擴大到約 0.5 毫米。這種寬度上的不均勻性以及圓窗提供的壓力釋放會導致基底膜在不同位置(距離卵圓窗的距離)沿膜振動,這取決於振動頻率。這使得基底膜表現為聲學濾波器,根據最大值的位移來分離傳入聲訊號的組成頻率。
-
展開的耳蝸,帶有基底膜
覆蓋基底膜頂面的毛細胞是聲波機械能轉化為電脈衝鏈中的最後部分。這些細胞在柯蒂氏器(沿基底膜延伸)中排列成內排和外排,它們周圍是被不同電位(突觸)包圍的帶電細胞。[1][8]
-
暴露毛髮和毛細胞的橫截面
-
耳蝸橫截面,毛細胞可見
如前所述,基底膜在受到聲音輸入時在不同位置表現出不同的振動最大值。由於這些激勵,流體相對於膜產生平行運動。這種運動在從這些細胞突出的無數微小毛髮上產生剪下力。這種擾動會在周圍的帶電細胞上產生電化學級聯反應,從而產生向大腦傳送訊號的結果。
重要的是要注意,這些毛細胞不是均勻地分佈在基底膜表面上,而是集中在離散的區域。由於不同的頻率會導致基底膜的不同部位產生比其他部位更大的振動,這意味著我們可以感知到某些頻率範圍比其他頻率範圍更好,具體取決於基底膜上對應區域周圍的毛細胞數量密度。這引入了離散性併為我們的聽覺感官提供了一種最小解析度,從而導致了一些有趣的非線性效應,這些效應將在不久後討論。
-
毛細胞在耳蝸上的排列。左=健康;右=模式缺陷
由於內耳的行為與帶通濾波器的行為相似,上述頻率組被稱為 **臨界頻寬**。[2]
現在已經更多地介紹了內耳的工作原理,可以說明特異性聽覺系統的更多特性,從一種相當普遍且在發生時非常明顯的非線性效應開始。它是拍現象。
拍現象是多自由度系統的特徵,其中各個自由度在一定程度上耦合在一起,並接收兩個略微不同頻率的諧波激勵。激勵可以按如下方式求和:[5]
由此產生的振動不再是簡單的諧波。
內耳是一個連續系統,基底膜充當複雜的帶通濾波器來分離頻率。當一隻或兩隻耳朵暴露在由兩個頻率略微不同的音調組成的聲波中時,基底膜表面上毛細胞的不均勻分佈和強定位會導致同一組(或臨界頻寬)毛細胞被入射聲波的兩個音調成分激發。
-
拍
因此,聽眾會將組合聲音感知為單個頻率音調,但強度會週期性變化。這被稱為拍。
在它們的頻率差值超過頻寬之前,音調仍然無法區分。有趣的是,如果將兩個音調分別呈現給兩隻耳朵,則不會發生拍,耳朵能夠分辨出差異。[4]
- ↑ a b c d e f 聲學,萊奧·L·貝拉內克 1993 年,版權:美國聲學學會,第 13 章 聽力、語音清晰度和心理聲學標準
- ↑ a b 根據理論和實驗得出的穩定聲音的總體響度,沃爾頓·L·豪斯,美國宇航局參考版 1001
- ↑ 美國聲學學會雜誌第 23 卷第 5 期,1951 年 9 月,耳蝸隔膜的 DC 電位和能量平衡,GEORG V. Bekesy,心理聲學實驗室,哈佛大學,劍橋,馬薩諸塞州,(1951 年 5 月 5 日收到)
- ↑ a b c d 聽力測量,伊拉·J·赫希,麥格勞希爾圖書公司,第一版,1952 年
- ↑ a b c 聲學基礎,勞倫斯·E·金斯勒,艾倫·B·科彭斯,第四版
- ↑ 人類的聲反射,Aage R. Moller,J. Acoust. Soc. Am. 34, 1524 (1962), DOI:10.1121/1.1918384
- ↑ http://www.engineeringtoolbox.com/sound-intensity-d_712.html
- ↑ a b c Fastl Hugo 和 Eberhard Zwicker。心理聲學:事實和模型。第三版。柏林:施普林格,2007 年。印刷。