感覺系統/計算機模型/語音感知

人類語音

發聲器官

人類的聲音是由發聲器官產生的。雖然說話看起來毫不費力，但它需要肺、舌頭、顎、嘴唇和牙齒的複雜運動協調。在皮層水平上，這種運動協調發生在布羅卡區。

術語

響度

聲音的強度通常用分貝 (dB) 表示，定義為

SPL=20*log{\frac {p}{p_{0}}}

其中 SPL = “聲壓級”（以 dB 為單位），參考壓力為 $p_{0}=2*10^{-5}N/m^{2}$ 。請注意，這遠小於氣壓（約 10⁵ N/m²）！還要注意，聲音通常以“聽覺級”而不是 SPL 表示。

0 - 20 dB SPL ... 聽覺級（正弦波形為 0 dB，從 1 kHz – 4 kHz）
60 dB SPL ... 中等響度的聲音，日常談話

基頻，來自喉部聲帶的振動，成年男性約為 120 Hz，成年女性約為 250 Hz，兒童高達 400 Hz。

共振峰

共振峰是人類語音中的主導頻率，是由聲帶在口腔等部位的訊號共振引起的。共振峰在聲音的頻譜中顯示為明顯的能量峰值。它們按升序編號，從最低頻率開始。

音素

語音通常被認為是由一系列稱為“音節”的聲學單元組成，它們對應於稱為“音素”的語言單元。音素是最小的語音單元，能夠區分不同的詞語。例如，單詞“dog”包含三個音素。分別更改第一個、第二個和第三個音素會產生單詞“log”、“dig”和“dot”。英語據說包含 40 個不同的音素，如單詞“dog”中的 /d/、/o/、/g/ 所指定。

語音感知

人類解碼語音訊號的能力仍然遠遠超過迄今為止開發的任何演算法。雖然自動語音識別在識別信噪比高的環境中清晰的語音方面取得了相當大的成功，但一旦條件變得不太理想，識別演算法與人類相比的表現往往很差。這似乎表明我們的計算機語音識別演算法尚未接近捕獲人類用來識別語音的底層演算法。

有證據表明，語音感知在大腦中的路徑與其他聲音的感知路徑有很大不同。雖然關於非語音聲音反應的研究通常發現反應隨刺激而分級，但語音研究反覆發現，當呈現分級刺激時，反應會離散化。例如，Lisker 和 Abramson^[1]播放了預先發聲的“b/p”音。聲音被解釋為 /b/ 還是 /p/ 取決於聲音起始時間 (VOT)。他們發現，當平滑地改變 VOT 時，會發生突然的變化（在子音播放後約 20 毫秒），受試者將他們的識別從 /b/ 轉換為 /p/。此外，受試者在區分同一類別中的兩種聲音（例如，VOT 為 -10 毫秒到 10 毫秒的聲音對，都將被識別為 /b/，以及 VOT 為 10 毫秒到 30 毫秒的聲音對，將被識別為 b 和 p）方面遇到了很大困難。這表明某種分類方案正在進行。在嘗試構建語音感知模型時遇到的主要問題之一是所謂的“不變性缺乏”，可以更直接地稱為“變異性”。這個術語指的是一個音素（例如，sPeech 中的 /p/ 或 Piety 中的 /p/）具有多種對映到它的波形，並且聲波形和音素之間的對映並非顯而易見，並且高度依賴於上下文，但人類聽者可靠地給出正確的結果。即使在上下文相似的情況下，波形也會因說話速度、說話者的身份以及說話的語調等因素而表現出很大程度的差異。因此，雖然沒有公認的語音感知模型，但現有的模型可以分為兩類：被動感知和主動感知。

被動感知模型

被動感知理論通常以與大多數感官訊號處理演算法相同的方式描述語音感知問題：一些原始輸入訊號進入，並透過一個層次結構進行處理，其中每個後續步驟從輸入中提取越來越抽象的訊號。早期被動模型的一個例子是區別特徵理論。其理念是識別某些特徵的二進位制值集合的存在。例如，“鼻音/口音”、“母音/非母音”。該理論認為，音素被解釋為這些特徵存在或不存在的二進位制向量。這些特徵可以從聲譜圖資料中提取。其他被動模型，例如 Selfridge^[2] 和 Uttley^[3] 所描述的模型，涉及一種模板匹配，其中處理層級的層次結構提取越來越抽象的特徵，並且對某些無關特徵（例如在分類音素時說話人的身份）具有不變性。

主動感知模型

對語音感知有完全不同的看法是主動感知理論。這些理論指出，鑑於發聲的能力與識別能力緊密相關，大腦擁有兩個用於語音感知和語音產生的平行系統是多餘的。這些理論的支持者認為，維護兩個獨立的資料庫——一個包含識別音素的程式，另一個包含產生音素的程式——既浪費又複雜。他們認為，語音感知實際上是透過嘗試複製傳入的訊號來完成的，因此使用相同的電路來進行音素產生和識別。語音感知的運動理論（Liberman 等人，1967）指出，語音聲音的識別不是透過任何形式的模板匹配，而是透過使用語音生成機制來嘗試重新生成語音訊號的副本。它指出，音素不應被視為語音中隱藏的訊號，而應被視為“線索”，生成機制試圖在語音前訊號中複製這些線索。該理論指出，大腦的語音生成區域透過不斷聽到自己的語音的反饋迴路，學習哪些語音前訊號會產生哪些聲音。據說嬰兒的咿呀學語是學習從前運動訊號中生成這些“線索”聲音的一種方式。^[4]

Stevens 和 Halle^[5] 在分析-合成模型中提出了類似的觀點。這描述了一個生成模型，該模型試圖生成與傳入聲音相似的訊號。它基本上利用了語音生成機制在人與人之間相似，以及說話者可以複製人在語音中聽到的特徵這一事實。當說話者聽到聲音時，語音中心嘗試生成傳入的訊號。比較器不斷反饋生成質量。因此，“感知單位”與其說是對傳入聲音的抽象，不如說是生成相同語音的前運動命令。

當一系列關於現在被稱為布羅卡失語症的研究發表時，運動理論遭到了嚴重打擊。這種疾病會損害一個人產生語音聲音的能力，而不會損害理解能力，而運動理論在其原始形式中指出，產生和理解是由相同的電路完成的，因此受損的語音產生應該意味著受損的語音理解。布羅卡失語症的存在似乎與這一預測相矛盾。^[6]

當前模型

語音感知的 TRACE 模型。輸入層之外的所有連線都是雙向的。每個單元代表語音的某個單元，例如單詞或音素。

語音感知最具影響力的計算模型之一被稱為 TRACE^[7]。TRACE 是一種類似神經網路的模型，它包含三層和遞迴連線方案。第一層按時間順序從輸入聲譜圖中提取特徵，基本上模擬了耳蝸。第二層從特徵資訊中提取音素，第三層從音素資訊中提取單詞。該模型包含前饋（自下而上）興奮連線、側向抑制連線和反饋（自上而下）興奮連線。在這個模型中，每個計算單元對應於感知的某個單元（例如音素 /p/ 或單詞“荒謬”）。基本理念是，根據它們的輸入，層內的單元將競爭以獲得最強的輸出。側向抑制連線導致了一種“贏者通吃”的電路，其中輸入最強的單元將抑制其鄰居併成為明顯的贏家。反饋連線使我們能夠解釋上下文相關理解的影響——例如，假設音素層根據其自下而上的輸入無法確定它是否聽到了 /g/ 或 /k/，但該音素位於“an”之前，後面是“ry”。/g/ 和 /k/ 單元最初將被同樣啟用，將輸入傳送到單詞級別，該級別已經包含對應於單詞（例如“anaconda”、“angry”和“ankle”）的興奮單元，這些單詞已由之前的“an”啟用。/g/ 或 /k/ 的興奮

↑ Lisker, L. (1970). "The voicing dimension: Some experiments in comparative phonetics". Proceedings of the 6th International Congress of Phonetic Sciences. Prague: Academia. {{cite book}}: Unknown parameter |coauthors= ignored (|author= suggested) (help); Unknown parameter |editors= ignored (|editor= suggested) (help)
↑ Selfridge, O.C (1959) "Pandemonium: a paradigm for learning". in Proceedings of the Symposium on Mechanisation of Thought Process. National Physics Laboratory.
↑ Uttley, A.M. (July 1966). "The transmission of information and the effect of local feedback in theoretical and neural networks". Brain Research. 2 (1): 21–50. doi:10.1016/0006-8993(66)90060-6.
↑ Liberman, M. T.; Mattingly, I. G.; Turvey (1967). "Language codes and memory codes". In Melton, A. W.; Martin, E. (eds.). Coding Processes in Human Memory. V. H. Winston & Sons. pp. 307–334. {{cite book}}: More than one of |first1= and |first= specified (help)
↑ Stevens, K. N.; Halle, M. (1967). "分析合成和區別特徵的評論". 在 Wathen-Dunn, W. (編輯). 語音和視覺形式感知模型：研討會論文集. 坎布里奇，馬薩諸塞州：麻省理工學院出版社. pp. 88–102.
↑ Hickok, Gregory (2010年1月). "映象神經元在語音和語言處理中的作用". 腦與語言. 112 (1): 1–2. doi:10.1016/j.bandl.2009.10.006.
↑ McClelland, James L; Elman, Jeffrey L (1986年1月). "TRACE 語音感知模型". 認知心理學. 18 (1): 1–86. doi:10.1016/0010-0285(86)90015-0.

[1] Lisker, L. (1970). "The voicing dimension: Some experiments in comparative phonetics". Proceedings of the 6th International Congress of Phonetic Sciences. Prague: Academia. {{cite book}}: Unknown parameter |coauthors= ignored (|author= suggested) (help); Unknown parameter |editors= ignored (|editor= suggested) (help)

[2] Selfridge, O.C (1959) "Pandemonium: a paradigm for learning". in Proceedings of the Symposium on Mechanisation of Thought Process. National Physics Laboratory.

[3] Uttley, A.M. (July 1966). "The transmission of information and the effect of local feedback in theoretical and neural networks". Brain Research. 2 (1): 21–50. doi:10.1016/0006-8993(66)90060-6.

[4] Liberman, M. T.; Mattingly, I. G.; Turvey (1967). "Language codes and memory codes". In Melton, A. W.; Martin, E. (eds.). Coding Processes in Human Memory. V. H. Winston & Sons. pp. 307–334. {{cite book}}: More than one of |first1= and |first= specified (help)

[5] Stevens, K. N.; Halle, M. (1967). "分析合成和區別特徵的評論". 在 Wathen-Dunn, W. (編輯). 語音和視覺形式感知模型：研討會論文集. 坎布里奇，馬薩諸塞州：麻省理工學院出版社. pp. 88–102.

[6] Hickok, Gregory (2010年1月). "映象神經元在語音和語言處理中的作用". 腦與語言. 112 (1): 1–2. doi:10.1016/j.bandl.2009.10.006.

[7] McClelland, James L; Elman, Jeffrey L (1986年1月). "TRACE 語音感知模型". 認知心理學. 18 (1): 1–86. doi:10.1016/0010-0285(86)90015-0.

[1]

[2]

[3]

[4]

[5]

[6]

[7]