工程聲學/源濾波理論
源濾波理論(Fant 1960)假設聲學語音訊號可以看作源訊號,並用聲門下方的聲道腔體中的共振進行濾波。這種簡單的語音合成模型基於以下假設:系統的動力學是線性的,並且可以分離為三個主要模組:聲門能量(源)、聲道(濾波器)和輻射聲音的建模效果是相互獨立的(如右側圖所示)。
聲門源大致與聲門下系統匹配,而聲道(VT)對應於聲門上系統。輻射模組可以看作一個轉換器,它將體積速度轉換為聲壓。通常,聲門源的輻射特性 R(f) 和源函式 S(f) 的頻譜包絡是頻率的平滑且單調的函式。然而,傳遞函式 T(f) 通常以幾個峰值來表徵,這些峰值對應於形成聲道的聲腔的共振。透過操縱這些腔體的形狀,可以改變峰值的位置和幅度。左側的圖以定性的方式顯示了對應於母音的聲道配置。每種情況下都顯示了源頻譜 S(f)、傳遞函式 T(f)、輻射特性 R(f) 和聲壓 pr(f) 的形式。
傳遞函式 T(f) 是透過應用任意形狀管道的聲傳播理論來確定的。對於高達 5000 Hz 的頻率,聲道的橫向尺寸小於聲音波長。因此,聲傳播可以看作是平行於管道軸線的平面波,聲道可以看作是直徑變化的聲學管道。
聲道近似為一個給定長度的聲學管道,由多個不同截面積的截面組成。這等效於將取樣聲道傳遞函式 (H(s)) 建模為給定數量的頻譜極點和零點的疊加,在頻譜域中可以表示為
其中 K 為常數,sa1,sa2,..是 H(s) 的零點,s1,s2,... 是極點。對於這個等式,極點和零點主要以複共軛對的形式出現,這些複頻率的實部遠小於虛部,這意味著在一個週期內損失的峰值能量遠小於在一個週期內的儲存能量。因此,H(s) 的極點可以表示為以下形式
其中 Kp 為常數,星號表示複共軛。聲道的固有頻率由極點表示,虛部表示共振頻率,即在沒有激勵的情況下發生振盪的頻率,實部給出這些振盪的衰減速率。換句話說,根據聲學管道的形狀(主要受舌位的影響),透過它的聲波會以某種方式反射,從而在某些頻率上產生干涉,從而產生共振。這些共振被稱為共振峰。它們的位置在很大程度上決定了聽到的語音聲音。
根據管道的聲學原理,管道末端(x=L)的壓力和體積速度可以與管道開始處(x=0)的變數相關聯。以下傳遞矩陣表示頻率域中管道兩側之間的聲學關係
其中 K 為波數,L 為管長。上述關係式可用於計算已知場狀態的另一個位置處的波場狀態。
由於聲道可以被視為具有不同橫截面的 n 個管子(見右側圖),因此傳遞函式可用於關聯聲門和輻射聲之間的狀態。
聲道的總方程變為
在此方程中,Zrad 為輻射阻抗。在約 6000 Hz 的頻率下,聲輻射阻抗可以近似寫為
其中 A 為嘴部開口面積,a 為有效半徑,Ks(f) 為無量綱頻率相關因子,用於考慮頭部對聲音的阻擋效果。
系統的傳遞函式可以計算如下
因此,方程得出
可以看出,上面的方程用聲源、濾波器和聲源的輻射特性來表示嘴巴前部的壓力。此方程描述了第一節中提到的源濾波理論。
聲道壁和其他損失的影響
[edit | edit source]在上一節中,聲道被建模為一個沒有損失的系統,除了終止阻抗項。然而,還有一些其他二階效應是精確建模所必需的,例如壁面效應、熱傳導和粘度、聲門開口。這些損失會改變共振頻率的頻寬。此外,它們也會改變或移動共振頻率。
管中空氣的共振頻率
[edit | edit source]聲道形狀與傳遞函式之間的關係很複雜——我們將在考慮均勻管子的簡單情況下進行討論。母音中的聲道可以近似為一個一端封閉(聲門)另一端開放(嘴唇)的管子。對於相對沒有收縮的聲道,17 釐米聲道的共振發生在以下頻率
f= n * c / 4 * L for n = 1, 3, 5, ...
f = 共振頻率,單位為 Hz c = 聲速,34000 釐米/秒 L = 聲道長度,單位為釐米
因此,17 釐米聲道的最低共振頻率為
f = c / 4 * L = 34000 / 4 * 17 = 500 Hz
共振頻率之間的間距為:f = 2 *c / 4 * L = c / 2 * L(始終是最低 f 的兩倍)= 1000 Hz
因此,共振頻率為:F1=500,F2=1500,F3=2500,F4=3500。
母音的雙管聲道模型
[edit | edit source]兩個不同橫截面積的共振器或均勻管可以連線起來近似一些母音或子音。在這種情況下,由於聲學耦合,整個系統的自然頻率並不僅僅是每個管的頻率。figures() 顯示了模擬母音/a/、/i/的不同管路配置。
典型值(對於成年男性聲道的母音/a/)為 l1 = 8 cm,l2 = 9 cm,A1 = 5 cm2,A2 = 0.5 cm2。聲學理論預測在 944 Hz、1063 Hz、2833 Hz 處會有共振。窄管和寬管可以被認為是具有共振頻率的獨立管,服從前一節中關於管的陳述。但是,兩管之間的邊界處的聲學阻抗並不為零,因此影響了管的自然頻率。組合系統的自然頻率是連線處電抗之和為零的頻率,即
需要注意的是,當管的自然頻率彼此相距較遠時,耦合的影響很小。
人聲道的母音/i/的典型值為 l1 = 9 cm,l2 = 8 cm,A1 = 5 cm2,A2 = 0.5 cm2。因此,理論上,F1 = 202 Hz,F2 = 1890 Hz,F3 = 2125 Hz。
四管聲道模型的母音
[edit | edit source]四管母音模型比兩管模型更能更好地估計更廣泛母音的共振頻率,因此是更受歡迎的母音建模方法。這種模型由一個唇管(管 1)、一個舌頭收縮管(管 3)以及收縮管兩側的未收縮管組成。該模型由三個引數控制。它們是:i)管 3 中心的位置;ii)管 3 的橫截面積;iii)唇部分的長度與橫截面積之比。對於極端的背部收縮,管 4 會消失,而對於極端的正面收縮,管 2 會消失。
使用四管模型計算共振頻率相當複雜,因此 Fant (1960) 提供了三個引數與所得共振頻率之間關係的(相當複雜)圖形表示。這些圖形表示被稱為列線圖。這些列線圖的原始版本為連續範圍的 x 收縮位置(即從舌頭收縮中心到聲門的距離)提供了連續範圍的所得 F1 到 F5 值。原始列線圖針對 5 個唇面積 (A1) 值和兩個舌頭收縮橫截面積 (A3) 值進行了此操作。對於不同的聲管長度,需要計算不同的列線圖。
四管、三引數模型能夠對大多數母音聲音進行足夠準確的預測,但無法模擬母音的鼻化。
參考文獻
[edit | edit source]1- Kenneth N. Stevens,2000,聲學語音學,麻省理工學院出版社。
2- Kinsler *等*,2000,聲學基礎,John Wiley & Sons。
3- Titze,I.R.(1994)。發聲原理,Prentice Hall(目前由 NCVS.org 出版),ISBN 978-0137178933。
4- James L. Flangam 和 Lawrence R. Rabiner,1973,語音合成。