語言/言語理解和言語產生的神經認知

引言

語言被定義為意義的符號表示系統，這一術語並不侷限於特定的交流方式，而是適用於言語以及其他幾種形式，例如書寫或聾啞人的手語，但也包括例如基於邏輯的計算機語言。然而，我們對語言的日常理解的核心是言語。這是人類語言進化的形式，即使在今天，估計的 6000 到 7000 種口語中只有大約 200 種也以書面形式存在。本章探討了人們每次參與對話時所付出的認知努力：言語產生和理解是兩個互補的過程，它們介於所言的意義（被認為獨立於語言而表示）和說話者之間交換的聲學訊號之間。兩種轉換方式都包括許多處理不同言語單元的步驟，例如音韻特徵、音位、音節、詞語、短語和句子。簡單地說，這些步驟在言語產生中按自上而下的順序執行，在言語理解中按自下而上的順序執行。儘管科學界對言語理解和產生的總體結構存在共識，但仍存在許多競爭性模型。本章將介紹其中一些模型以及來自實驗心理學的證據。本章的理解部分從聲波如何轉化為音位（最小的意義單位）開始，然後討論詞語級別的處理。句子理解 - 在語言層次結構中緊隨詞語處理之後 - 在本章中尚未討論，維基社群被要求新增一個關於這個問題的章節。在處理言語產生的部分，讀者將被介紹到將資訊轉化為一系列詞語的計劃，詞彙化問題（即找到合適的詞語）以及最終的步驟，直到產生所需聲音的運動產生。

言語理解

毫無疑問，言語理解是人類高度發達的能力，因為儘管言語訊號高度複雜，但它幾乎自動發生，並且速度驚人：我們可以以每秒 20 個音位的速度理解言語，而在非言語聲音序列中，只有當聲音以每秒 1.5 個聲音的速度呈現時才能區分聲音的順序（Clark & Clark，1977）。這第一個暗示表明，與其他聲音相比，言語包含更多資訊，必須存在利用這些資訊的機制來促進處理。

音位感知

我們理解話語的方式的起點是到達我們聽覺系統的聲學序列。作為第一步，我們必須將言語訊號與其他聽覺輸入分離。這是可以做到的，因為言語是連續的，而背景噪音通常不是，並且因為在我們的一生中，我們的聽覺系統學會利用頻率等聲學特性將聲音分配給可能的來源（Cutler & Clifton，1999）。接下來，我們必須將構成順序言語訊號的單個聲音識別為片段，以便我們將它們與意義聯絡起來。言語理解的早期部分也被稱為解碼。最小的意義單位是音位，它是一個可區分的單個聲音，在大多數情況下對應於字母表的特定字母。然而，字母可以代表多個音位，就像“u”在“hut”和“put”中一樣。語言學家透過特定的發音方式來定義音位，即參與發音的口腔器官和運動方式。例如，英語音位 /k/ 被定義為“軟顎清子音”（Harley，2008）。共享某些發音特徵，因此也共享音韻特徵的音位看起來更相似，並且更容易混淆（例如 /k/ 和 /g/ 聽起來比 /k/ 和 /d/ 或 /e/ 更相似）。

解碼將聲學言語訊號轉換為語言表示。

音位最小的語言單位，它會影響意義，同時也是最小的音韻單位，被感知為不同的聲音。通常與字母表的特定字母相關聯。

音位的範疇感知

雖然我們將語音聲音感知為音位，但認為語言的聲學水平和音位水平是相同的，這是錯誤的；相反，透過學習我們的第一語言，音位塑造了我們的感知。音位是包含具有不同聲學特性的聲音的類別，它們在不同的語言之間有所不同。也許最著名的例子是，日語母語人士最初難以區分歐洲音位 /r/ 和 /l/，這在日語中構成一個音位。同樣，印地語使用者區分兩種聲音，而歐洲人則將這兩種聲音都感知為 /k/。學習到的區分模式被嚴格地應用，導致音位的範疇感知：人們通常將聲音感知為一種音位或另一種音位，而不是介於兩者之間。當向參與者呈現沿兩個音位之間連續體在聲學上變化的人工音節時，證明了這種效果。在某一點，在兩個音位中感知到其中一個音位的範圍內存在一個“邊界”（Liberman、Harris、Hoffman & Griffith，1957）。然而，發現如果要求這樣做，我們能夠檢測到屬於同一音位類別的兩個聲音之間的微小差異（Pisoni & Tash，1974）。因此，似乎範疇感知不是早期處理的必要條件，而是一種用於簡化理解的習慣。關於範疇感知究竟是如何發生的，仍然存在爭議。似乎不可能將感知到的聲音與相應音位的“完美範例”進行比較，因為需要大量的每個音位的“完美範例”才能應用於不同年齡、性別、方言等的說話者（Harley，2008）。

同化

無論如何，假設音位感知可以依賴於音韻特性本身的理論面臨著兩個基本問題：不變性和分割問題。不變性問題是，同一個音位在不同的音節環境中聽起來可能會有所不同。這是由於同化作用，這意味著，當一個聲音被髮音時，發音器官已經適應了下一個聲音所需的部位。因此，有人認為音節比音位更不變。也許這可以部分解釋以下發現：參與者對單個音位的反應時間比對音節的反應時間更長（Savin & Bever，1970），這導致作者認為音節首先被處理。無論是否如此，毫無疑問，聽者利用了每個音位包含的關於周圍音位的資訊，因為同化資訊中的實驗性失配（即音位以不適合下一個音位的方式發音）導致音位識別的反應時間更長（Martin & Brunell，1981）。因此，不變性問題表明音節是介於音位的意義承擔作用及其不同的聲學形式之間的單位。

分割

分割問題指的是將連續的言語訊號劃分為其組成部分（即音位、音節和詞語）的必要步驟。分割不能僅僅透過使用訊號的物理特徵來完成，因為聲音會混在一起，不容易分開，而這不僅發生在詞語內部，也發生在詞語之間（Harley，2008）。如果我們檢視聲學言語訊號的聲譜圖顯示，我們很難分辨音位、音節或詞語之間的邊界（圖 1）。也許我們從言語訊號中找到的分割的最佳起點是它的韻律，特別是節奏。它在不同的語言之間有所不同，導致不同的分割策略：法語的節奏非常規律，音節沒有太大收縮或擴充套件，這允許基於音節的分割。相反，英語強烈區分重讀音節和非重讀音節，這些音節可以擴充套件或收縮以適應節奏。因此，英語中的節奏分割是基於重音的，產生的單位也被稱為 音韻詞語 ，它們由一個重讀音節和相關聯的非重讀音節組成，並且不一定對應於 詞彙詞語 （例如，“select us”是一個音韻詞語；Harley，2008）。重音結構對語音識別的重要性在參與者必須在非語音訊號中檢測特定字串時得到了證明。當目標位於一個音韻詞語內時，他們的反應比跨越音韻詞語邊界時更快（Cutler & Norris，1988）。在相同的任務中，也證明了音節知識的使用，因為與正常音節相對應的字串比更短或更長的字串檢測得更快（Mehler、Dommergues、Frauenfelder & Segui，1981）。分割的另一個目標似乎是將所有感知到的聲音分配給詞語。因此，在非詞語中檢測嵌入的詞語更困難（因為速度更慢），當剩餘的聲音沒有像詞語一樣的音韻結構時（例如 fegg，而不是 maffegg；Norris、McQueen、Cutler & Butterfield，1997）。

分割將連續的言語訊號劃分為其底層的語言單位，如音位、音節和詞語。

韻律語音中的音調和節奏特徵，例如重音模式和語調。韻律在口語中可能包含意義；它在書面語中不存在。

音韻詞 韻律單位，包含一個重讀音節。它可能包含一個詞彙詞，但可以更長或更短。

詞彙詞 作為意義單位的詞語；對應於“詞語”的日常理解。

自上而下的反饋

剛剛描述的過程作用於更高級別的單位，但有證據表明（但也存在強烈爭議）這些單位對音素識別的自上而下的反饋。一項證據是所謂的詞彙識別偏移，這種偏移發生在研究設計中，這些設計檢查了音素的範疇感知，這些音素的聲音在兩個音素之間連續變化。如果這些音素在詞語語境中出現，參與者會改變他們的判斷，偏向於創造有意義詞語的音素（例如，在詞語 *iss 中，偏向於 /k/ 而不是 /g/）（Ganong，1980）。如果一個句子中說出的一個詞語的音素被剪掉並替換成咳嗽聲或音調，則可以觀察到音素恢復。參與者通常不會報告有音素丟失 - 即使他們被告知音素已被替換，他們也會感知到單詞中預期的音素。如果同一個詞語帶有咳嗽聲代替音素被插入到不同的句子中，每個句子都為不同的詞語提供語境支援（例如，“The *eel was on the orange.” vs “The *eel was on the axle.”），參與者報告他們感知到了語境預期詞語所需的音素（Warren & Warren, 1970）。請注意，承載內容資訊的詞語出現在要恢復的音素之後。因此，人們質疑究竟是音素感知還是處理的後期階段導致了恢復效應。似乎雖然確實存在感知音素恢復（因為參與者無法區分包含恢復音素和實際聽到的音素的詞語），但語境效應必須透過詞語意義提取後的處理階段來解釋（Samuel, 1981）。音素識別的雙編碼理論（Foss 和 Blank，1980）指出，我們可以使用兩種不同的資訊來源來識別單個音素： 詞前碼，它從聲學資訊中計算得出，以及 詞後碼 ，它來自對更高級別單位（如詞語）的處理，併產生自上而下的反饋。不同研究設計的結果被解釋為使用其中一種資訊來源的結果。在非詞語中識別某個音素與在詞語中一樣快，這表明使用了詞前碼，而當在句子中出現時，如果該音素是句子語境中預期的詞語的一部分，則識別速度更快，而不是如果它是意外詞語的一部分，這可以被視為詞後處理的結果。然而，詞後碼使用的證據過於有限，無法支援它是一種普遍應用的策略的觀點。

詞前碼 詞語識別之前語音的編碼方式。它僅僅基於音韻資訊。

詞後碼 詞語識別之後語音的編碼方式。它包含語義和句法資訊。

詞語識別

詞語的識別可以看作是語音理解的一個轉折點，因為它是詞語級別，在這個級別上表示了我們用來破譯話語意義的語義和句法資訊。在上一段中介紹的術語中，這種詞語級別的資訊就是詞後碼。在這裡，語言的符號特徵開始發揮作用：與詞前碼不同，詞後碼不是從語音訊號的聲學特徵中派生出來的，而是從聽眾對詞語的心理表徵中派生出來的（包括意義、語法屬性等）。大多數模型提出了一個心理詞典，即詞彙。當一個音韻串成功地對映到詞彙中的一個條目上（詞後碼變得可用）時，被稱為詞彙訪問（Harley，2008；Cutler & Clifton，1999）。詞語識別的程度與語音理解層次結構中其他級別的處理重疊多少存在爭議。音素識別和詞語識別可以同時進行，至少研究表明，音素識別並不需要在詞語識別開始之前完成（Marslen-Wilson & Warren，1994）。關於語境對詞語識別的作用，理論可以定位在兩個極端位置之間：自主位置認為，語境只能與詞後碼互動，但不會影響詞語識別本身。最具體地說，應該沒有來自處理後期階段（即短語或句子級別）到早期階段的反饋。然而，根據互動觀點，正是這種結構語境被用於詞語識別。在許多詞語識別模型中，將介紹兩個模型，即：群體模型和TRACE模型。

詞彙一個心理詞典，一旦識別出詞語，就會從該詞典中回憶起每個詞語的意義和句法屬性。

群體模型

群體模型（原始版本：Marslen-Wilson & Welsh，1978；後期版本：Marslen-Wilson，1990）提出了詞語識別的三個階段：訪問階段在我們聽到一個詞語的開頭時開始，並從我們的詞彙中提取出一系列可能匹配的候選詞，即所謂的群體。因此，一個詞語的開頭對於理解尤為重要。初始群體以自下而上的方式形成，不受語境的影響。隨著更多詞語部分被聽到，選擇階段隨之而來，在這個階段中，不再匹配的候選詞的啟用水平逐漸衰減，直到選擇出最匹配的詞語。不僅音韻證據，而且句法和語義語境也被用於這個選擇過程，特別是在其後期階段。詞語識別的前兩個階段是詞前的。詞語的識別點可以，但也經常不會，與它的唯一性點一致，即初始序列對一個詞語是唯一的點。如果語境資訊可以被用來剔除候選詞，則識別點可能會在唯一性點之前發生，而如果沒有任何幫助的語境資訊並且聲學訊號不清楚，則它可能會在唯一性點之後發生。在識別點，第三階段，即詞後階段，整合階段開始，在這個階段中，所選詞語的語義和句法屬性被利用，例如將其整合到句子的表徵中。與該模型一致的是，如果實驗產生的錯誤出現在詞語的最後部分並且存在強烈的語境資訊，則參與者在重複短語時更容易忽略這些錯誤，而如果這些錯誤出現在開頭並且語境不明確，則會引起混淆（Marslen-Wilson & Welsh，1978）。

TRACE模型

TRACE（McClelland & Elman，1986）是一個連線主義的語音識別計算機模型，這意味著它由許多相互連線的處理單元組成。這些單元在不同的級別上執行，代表音韻特徵、音素和詞語。啟用在單元之間雙向傳播，允許自下而上和自上而下的處理。在同一處理級別的單元之間，存在抑制連線，這些連線使這些單元相互競爭，並模擬音素範疇感知等現象。在詞語級別，也有證據表明候選詞之間存在競爭（即相互抑制）：嵌入在非詞語字串中的詞語，如果非詞語部分與其他現有詞語相似，則需要更長的時間才能被檢測到，而不是如果它不相似。研究表明，這種效應與之前討論的基於重音的分割的影響同時發生且獨立於該影響（McQueen, Norris & Cutler, 1994）。TRACE 在模擬人類語音感知的一些特徵方面表現良好，尤其是語境效應，而在其他方面則與人類感知有所不同，例如對錯誤的容忍度：TRACE 會將音素細節發生變化的詞語（例如，從“smog”派生的“smob”）識別為相關詞語，而對人類而言，這些詞語似乎是非詞語（Harley，2008）。其他研究人員批評了所謂的自上而下的反饋量過多，因為一個不包含自上而下的反饋的 TRACE 版本模擬的語音感知與原始版本一樣好（Clifton & Cutler，1999）。

語音產生

說話的行為涉及到與聽覺行為相似的處理步驟，但這些步驟按相反的順序執行，從句子意義到音韻特徵。說話也可以看作是將想法轉化為線性形式（因為句子是詞語的一維序列）。根據 Levelt（1989）的說法，說話者處理三個主要問題。第一個是概念化，即確定要說什麼，並選擇相關資訊來構建一個非語言資訊。下一個是將這個非語言資訊轉化為語言形式，包括選擇單個詞語、句法規劃和將詞語編碼為聲音。第三個問題是執行，這意味著在運動發音系統上實現語言表徵。圖 2 給出了 Levelt 模型的概述，其特定特徵將在以下章節中討論。有證據表明，語音產生是一個 增量式 過程，這意味著規劃和發音同時進行，處理的早期步驟“領先於”我們在言語序列中準備的後期步驟。例如，如果要形成一個包含兩個名詞的短句來描述一幅圖畫，一個聽覺干擾因素會延遲說話的開始，如果它在語義上與兩個名詞中的任何一個相關，或者如果它在音韻上與第一個名詞相關，但與第二個名詞不相關（Meyer，1996）。這支援了這樣的觀點，即在說話開始之前，句子的所有名詞都在語義上被準備好了，但只有第一個名詞已經被音韻編碼了。似乎規劃也以週期性返回的階段進行，因為人們發現，在正常的對話中，每隔 5 到 8 個詞語就會出現停頓。流暢的言語時期與更加不流暢的時期交替出現，兩者都與不同的手勢和眼神接觸模式相關聯。這被解釋為構建說話的“認知週期”（Henderson, Goldman-Eisler & Skarbeck (1966)。關於語音產生的文獻遠少於關於理解的文獻；大多數關於語音產生的研究都集中在收集言語錯誤（並詢問說話者想要說的是什麼）以瞭解我們如何組織語音產生。實驗性研究，例如使用圖片命名任務，是一個比較新的領域（Harley，2008）。因此，在討論概念和句法規劃、詞語化和發音的步驟之前，有一段關於言語錯誤的段落。

增量處理 處理的順序步驟同時發生，以一種方式，當已經經歷過步驟 1 的材料正在經歷步驟 2 時，新材料將經歷步驟 1。

言語錯誤

各種語言單位（例如，音韻特徵、音素、音節、語素、詞、短語、句子）都可能成為日常生活中以及實驗室任務中發生的言語錯誤的主題。這些錯誤涉及不同的機制，如混合、替換、交換、新增或刪除語言單位（Harley，2008）。為了更形象地說明言語錯誤的分類，這裡有一些（自己建立的）例子

表 1：言語錯誤示例。
錯誤	示例	預期
音韻特徵替換	telete	delete
音素刪除	probaby	probably
音素交換（此處：也為Spoonerism）	nigh hoon	high noon
音素新增（此處：也為 perseveration）	cream crake	cream cake
音節刪除	unployment	unemployment
詞綴替換	hungerty and pover	hunger and poverty
詞語刪除	The bar is next the library.	The bar is next to the library.
詞語替換	The sky is very hot today.	The sky is very blue today.
詞語混合	The sky is very blot today.	The sky is very blue today.
短語混合	I saw him tell it was not a good idea.	I saw him climb up the roof. I told him it was not a good idea.

言語錯誤涉及特定語言單位的發現已被解釋為一個論據，即這些單位不僅是語言學家的描述性類別，而且還受實際言語處理的認知步驟的影響（Fromkin，1971）。研究表明，錯誤並非隨機發生：如果人們遇到容易出錯的材料（例如，如果要求他們快速讀出包含繞口令的文字），形成詞彙上正確的詞的錯誤比不形成詞彙上正確的詞的錯誤發生的頻率更高。形成禁忌詞的錯誤比其他可能的錯誤發生的頻率更低。然而，包含意外形成禁忌詞可能性的材料會導致皮膚電反應升高，就好像說話者在內部監控這些可能的錯誤一樣（Motley、Camden & Baars，1982）。

Garrett 的言語產生模型

Garrett（1975，1992）提出了一個基於言語錯誤分析的言語產生的一般模型。他的基本假設是處理是序列的，不同的處理階段之間沒有相互作用。短語規劃分兩個步驟進行：在功能層，確定內容和主要句法角色，如主語和賓語，以及在包含確定最終詞序和所用詞的音韻規範的位置層。內容詞（名詞、動詞和形容詞）在第一層選擇，功能詞（如限定詞和介詞）僅在第二層選擇。因此，內容詞詞幹的音韻規範發生在功能詞或語法形式（如動詞的複數形式或過去時形式）的音韻規範之前。根據該理論，詞語交換髮生在第一層，因此受語義關係的影響，但受完成句中詞語之間距離的影響要小得多。相反，作為音韻編碼產物的語音交換髮生在詞序已確定的後期階段，這使得它們受距離的約束。同樣根據該理論，語音通常在短距離內交換，而詞語可以在整個短語內交換。Garret 的理論還預測，元素只有在它們屬於同一處理級別時才會交換。這得到了一個可靠的發現的支援，即內容詞和功能詞幾乎從不互相交換（Harley，2008）。其他言語錯誤更難用 Garret 的模型來解釋：詞語混合，如“quizzle”來自“quiz”和“puzzle”，似乎表明兩個詞語同時從詞彙中提取，這與 Garret 的語言產生是序列的而不是並行過程的想法相矛盾。更成問題的是，詞語混合甚至整個短語的混合似乎受到音韻相似性的促進。也就是說，闖入的內容和預期的內容在它們共享音素或音節的地方比偶然發生的頻率更高。如果功能層面的規劃和音韻處理確實是相互之間沒有互動的獨立階段，那麼這種情況就不應該發生（Harley，1984）。

概念規劃

已經提到，說話涉及線性化思想。這是因為，即使我們想說的話涉及以複雜的方式相互關聯的概念（例如像一個網路），我們也必須一個一個地處理它們。這是 概念準備的主要目標，這一步驟 - 根據 Levelt（1999） - 發生在將思想轉化為詞語之前，從而產生一個語言前資訊。宏觀規劃是概念準備的一部分，可以被描述為主題的管理。說話者必須確保聽眾在引導他的注意力從一個專案到下一個專案時能夠跟上。當人們在對話中遍歷一組專案時，他們通常會選擇與前一個專案直接相關的專案；如果這不可能，他們會回到一箇中心專案，他們可以將其與下一個專案相關聯，或者他們會從一個簡單的專案開始，然後轉向更難的專案。我們用句子表達的思想通常包含指稱之間的關係。為了以語言中要求的線性形式獲得這些關係，我們必須將指稱分配給句法角色，如主語和賓語，這些角色在大多數語言中與句子中的某些位置相關聯。這被稱為微觀規劃。通常可以用各種句法結構表達相同的關係，類似於不同的視角，並且我們必須在開始說話之前選擇一個。例如，如果一隻貓和一隻狗並排坐著，我們可以說“貓坐在狗的右邊”以及“狗坐在貓的左邊”（Levelt，1999）。有人提出，句子的整體結構（如主動語態與被動語態或副詞位於句首或句尾）是在一定程度上獨立於內容確定的，也許是藉助於一個“句法模組”。證據來自句法啟動，例如當參與者在閱讀一個無關的句子後描述一幅圖片時會發生這種情況。他們選擇與先前閱讀的句子相似的句法結構的頻率比偶然發生的頻率更高。其他方面，如詞語的選擇及其語法形式，不會與這種啟動發生相互作用（Bock，1986）。

概念準備 將概念之間的關係轉移到一系列句法關係中。

指稱一個詞所指代的人、物體或概念。

詞語化

在概念規劃期間選擇的概念必須轉化為具有明確語法和音韻特徵的詞語，以便我們構建最終以音韻方式編碼以進行發音的句子。這種“詞語選擇”被稱為 詞語化 ，Levelt (1999) 假設這是一個兩步過程：首先，繪製一個語義和句法上指定的詞語表示，即所謂的詞素，它不包含音韻資訊；然後將詞素與其音韻形式，即詞形聯絡起來。說不出話的現象可以作為詞素選擇成功但音韻處理被打斷的日常生活例子：即使說話者知道一個詞的含義，甚至知道其語法或音韻細節，但仍然無法找到該詞的音韻形式。詞語化中語義和音韻處理分離的模型得到了圖片命名任務中干擾因素的證據支援：必須呈現與目標項音韻相關的聽覺刺激以減緩命名的時間視窗，與語義相關的刺激干擾命名的時間視窗不同（請注意，兩者在其他時間視窗內都可能加快處理速度）。根據這些發現，處理圖片並激活概念大約需要 150 毫秒，選擇詞素大約需要 125 毫秒，音韻處理大約需要 250 毫秒（Levelt 等人，1991）。其他研究人員認為這些階段之間存在重疊，允許級聯式處理：即使在詞素選擇完成之前，語義處理的資訊也可以用於音韻處理。Peterson 和 Savoy (1998) 在圖片命名任務中發現了中介啟動，這意味著在某個時間點呈現目標詞的語義相關詞的音韻相關詞（例如，透過“沙發”與目標詞“沙發”相關的“蘇打水”）促進了處理。支援級聯式處理的另一個發現是，插入詞與目標詞在語義和音韻上都有關的詞語替換錯誤（例如，目錄到日曆）出現的機率高於隨機水平（Harley，2008）。爭議甚至更進一步，質疑詞素的存在。作為替代模型，Caramazza (1997) 提出了詞語化過程中資訊相互交換的詞彙語義網路、句法網路和音韻網路。

詞語化 言語產生中的詞語選擇。

詞素一個詞的含義和句法屬性的表示，不包含其音韻特徵。

詞形一個詞的音韻形式的表示。

語法規劃

對於每個詞，語法特徵可以透過詞素選擇（或根據 Caramazza 模型啟用句法網路中的相關元素）變得可訪問，從而限制將其整合到句子的機會。每個詞都可以被概念化為句法網路中的一個節點，為了完成句子的結構，必須找到連線所有這些節點的路徑。習語是一種特殊情況，因為它們與非常強的約束條件相關聯。因此，假設它們作為獨立的條目（除了構成它們的單個詞的條目之外）儲存在我們的心理詞典中（Levelt，1999）。在許多語言中，為了將一個詞整合到句子中，還需要定義該詞的形態形式，並考慮其句法關係以及該詞包含的附加資訊（如時態和數）。形態變換可以透過在詞根上新增詞綴（如“speculated”或“plants”）或透過改變詞根（如“swim-swam”或“mouse-mice”）來實現。英語中的形態變換的數量和複雜程度與德語、俄語或阿拉伯語等語言相比適中，而在漢語等其他語言中，則根本不存在形態變換。

形態詞語能夠採用不同的語法形式，並具有不同的音韻形式。

發音

當詞語以其適當的形態形式的音韻資訊可用且詞序已確定時，發音就可以開始。請記住，這些過程是增量的，因此句子不需要在開始發音之前完全準備完畢。問題是要以正確的順序和正確的韻律產生所需的語音。關於如何實現這一點，存在不同的模型。掃描複製模型（Shattuck-Hufnagel，1979）是一種經典方法，它提出要準備一個音節結構和重音模式的框架。音素由“複製器”模組插入到這個框架中，並且進度會立即被檢查。語音錯誤，例如音素交換、音素刪除或堅持，可以用複製和檢查過程的某些點的失敗來解釋。根據競爭排隊模型（Hartley & Houghton，1996），該模型採用了框架和複製器，要插入的音素形成一個佇列，插入順序由它們與標記詞語開頭和結尾的特定單元之間的啟用和抑制連線來控制。因此，與開始單元連線最強的音素將被插入第一個位置。

音節在發音中的作用

WEAVER++（Levelt，2001）是一個兩步模型，假設透過詞形識別，同時繪製一個代表整個詞的音素序列。這得到了命名任務中的發現支援，在命名任務中，以聽覺方式呈現的啟動目標詞部分的干擾因素會加速命名，無論啟動的部分在目標詞中的位置如何（Meyer & Schriefers，1991）。作為下一步，形成音節，而音節不是詞典表示的一部分。由於同化作用，音節需要作為發音過程的輸入。音節的形成被認為是由一個頻繁音節的儲存庫，即 音節表 ，促進的。即使在像英語這樣的具有大量不同音節的語言中（超過 12,000 個），在給定的話語中，只有很少的音節佔大多數音節。這些音節（在只有幾百個不同音節的語言中，如漢語或日語，可能是所有音節）形成了高度自動化的運動序列，這些序列（根據 Rizzolatti & Gentilucci，1988）可以儲存在輔助運動區。支援音節表存在的發現是，在聯想學習任務中，包含高頻音節的偽詞（由正常的荷蘭音節構成）的處理速度比包含低頻音節的偽詞更快（Cholin，Levelt & Schiller，2006）。音節的形成也可能取決於韻律。在像英語這樣的重音分配語言中，音韻詞是透過將非重音音節與相鄰的重音音節關聯起來形成的。這些音韻詞似乎在說話開始之前就已準備好，因為對於包含更多音韻詞的句子來說，說話開始的時間更長。在發音中，音節只在音韻詞內結合，而不是跨音韻詞結合。例如，在句子“給我一杯啤酒，如果啤酒是冷的”中，“啤酒”中的“r”只在句子的第二部分（“bee-ris cold”）中與後面的“i”結合，因為逗號標誌著音韻詞之間的邊界（Harley，2008）。這個例子還表明，音節不是由詞語決定的，因為當詞語單獨存在時，音素可能會從它們所屬的音節中改變，而改為屬於另一個詞語的音節。

音節表 用於語音產生中的音節準備的“字典”，包含頻繁的音節。

聲學語音引數

在發音過程中，我們不僅操縱我們發出的聲音的音素屬性，還操縱音量、音調和速度等引數。這些引數取決於話語的整體韻律，以及給定音節在話語中的位置。雖然韻律可以被直接調節以表達獨立於所使用詞語的含義（想想不同的重音可以讓同一個句子聽起來像陳述句或疑問句），但一些聲學引數可以暗示說話者的情緒狀態：音調是指短語內音調的變化，受短語與說話者的相關性以及說話者的情感參與的影響。音區是指基本音調，受說話者當前自尊心的影響（使用較低的胸腔音區表明自尊心高於使用頭部音區）（Levelt，1999）。

語音產生的監控

根據語音產生的標準模型（Levelt，1999），監控貫穿語音產生的所有階段。Levelt 假設，為了監控句法排列，我們使用與分析聽到的句子的句法相同的“解析”機制。儘管語音產生和語音理解涉及不同的腦區（聽覺時顳葉聽覺區域被啟用，說話時運動區域被啟用；參見關於語言生物學基礎的章節），但對自己語音的監控似乎也涉及到參與傾聽他人的顳葉區域。因此，人們提出了用於語音監控的“感知迴路”（Levelt，1999），儘管目前尚不清楚這個迴路是處理我們產生的聽覺訊號，還是處理一些更早的語音表示，一種“內心”語音。

總結

言語理解首先要從識別音訊背景中的語音訊號並將其轉化為抽象表徵開始，這也被稱為解碼。語音被感知為音素，它是意義的最小單位。音素感知不僅受聲學特徵的影響，也受詞語和句子語境的的影響。為了分析其意義，需要對連續的語音訊號進行分割。這藉助於語音的節奏模式來完成。在接下來的詞語識別的處理步驟中，只包含詞語的語音資訊的預詞彙編碼被補充了後詞彙編碼，即詞語的語義和句法屬性。有人提出，存在一個包含詞語候選者的“心理詞典”，即詞典。透過整合單個詞語的後詞彙編碼，可以破譯句子的含義。言語理解的終點——概念資訊——是言語產生的起點。由於言語是一個一維序列，所以思想必須以線性形式組織，並必須表達為句法關係。必須為選擇的概念選擇詞語，這一過程被稱為詞彙化，它是詞語識別的逆過程，因為這裡首先選擇詞語的語義和句法表徵（詞素），然後必須將其與語音表徵（詞形）聯絡起來。單個詞語的句法屬性可以看作是將其整合到句子中的約束條件，因此需要構建一個滿足所有約束條件的句法結構。在對句子進行語音編碼以進行發音之前，還需要指定詞語的形態形式。為了計劃發音，音節從詞彙詞語中構建出來，並與句子重音模式產生的語音詞語相協調。一般來說，言語產生是一個增量過程，這意味著發音和對後續短語的不同準備階段同時發生。

進一步閱讀

Cutler, A. & Clifton, C. (1999). 理解口語：聽者的藍圖。在：C. M. Brown & P. Hagoort (1999). 語言的神經認知。牛津：牛津大學出版社。

Levelt, W. J. M. (1999). 產生口語：說話者的藍圖。在：C. M. Brown & P. Hagoort (1999). 語言的神經認知。牛津：牛津大學出版社。

Fromkin, V. A. (1971) 異常話語的非異常性。語言，51, 696-719

參考文獻

Bock, J. K. (1986). 語法持續性在語言產生中的作用。認知心理學，18, 355-387。

Caramazza, A. (1997). 詞彙訪問中有多少個處理級別？認知神經心理學，14, 177-208。

Cholin, J., Levelt, W. J. M. & Schiller, N. O. (2006). 音節頻率對言語產生的影響。認知，99, 205-235。

Clark, H. H. & Clark, E. V. (1977). 心理學與語言：心理語言學導論。紐約：哈考特·佈雷斯·喬瓦諾維奇。

Cutler, A. & Clifton, C. (1999). 理解口語：聽者的藍圖。在：C. M. Brown & P. Hagoort (1999). 語言的神經認知。牛津：牛津大學出版社。

Cutler, A. & Norris, D. G. (1988). 強音節在詞彙訪問分割中的作用。實驗心理學雜誌：人類感知與表現，14, 113-121。

Foss, D. J. & Blank, M. A. (1980). 識別語音編碼。認知心理學，12, 1-31。

Fromkin, V. A. (1971) 異常話語的非異常性。語言，51, 696-719。

Ganong, W. F. (1980). 音位分類在聽覺詞語感知中的作用。實驗心理學雜誌：人類感知與表現，6, 110-125。

Garrett, M. F. (1975). 句子產生的分析。在：G. Bower. 學習與動機的認知心理學（第 9 卷，第 133-177 頁）。紐約：學術出版社。

Garrett, M. F. (1992). 詞彙選擇的障礙。認知，42, 143-180。

Harley, T. A. (1984). 對自上而下的獨立語音產生模型的批判：來自非計劃內部語音產生的證據。認知科學，8, 191-219。

Harley, T. A. (2008). 語言心理學：從資料到理論。第三版。霍夫：心理學出版社。

Hartley, T. & Houghton, G. (1996). 非詞的短時記憶的語言約束模型。記憶與語言雜誌，35, 1-31。

Henderson, A., Goldman-Eisler, F. & Skarbeck, A. (1966). 語音中的順序時間模式。語言與言語，8, 236-242。

Libermann, A. M., Harris, K. S., Hoffmann, H. S. & Griffith, B. C. (1957). 在音位邊界內和跨音位邊界內的語音聲音辨別。實驗心理學雜誌，53, 358-368。

Levelt, W. J. M. (1989). 言語：從意圖到發音。馬薩諸塞州劍橋：麻省理工學院出版社。

Levelt, W. J. M. (1999). 產生口語：說話者的藍圖。在：C. M. Brown & P. Hagoort (1999). 語言的神經認知。牛津：牛津大學出版社。

Levelt, W. J. M. (2001). 口語詞產生：詞彙訪問理論。美國國家科學院院刊，98, 13464-13471。

Levelt, W. J. M., Schriefers, H., Vorberg, D., Meyer, A. S., Pechmann, T. & Havinga, J. (1991). 語音產生中詞彙訪問的時間程序：圖片命名研究。心理回顧，98, 122-142。

Marslen-Wilson, W. D. (1990). 啟用、競爭和頻率在詞彙訪問中的作用。在：G. T. M. Altmann (1990). 語音處理的認知模型。馬薩諸塞州劍橋：麻省理工學院出版社。

Marslen-Wilson, W. D. & Warren, P. (1994). 詞彙訪問中感知表徵和過程的級別：詞語、音素和特徵。心理回顧，101, 653-675。

Marslen-Wilson, W. D. & Welsh, A. (1978). 處理互動作用和詞彙訪問在連續語音中詞語識別的作用。認知心理學，10, 29-63。

Martin, J. G. & Brunell, H. T. (1982). 對前瞻性共發音效應的感知。美國聲學學會雜誌，69, 559-567。

McClelland, J. L. & Elman, J. L. (1986). 語音感知的 TRACE 模型。認知心理學，18, 1-86。

McQueen, J. M., Norris, D. G. & Cutler, A. (1994). 口語詞識別中的競爭：在其他詞語中發現詞語。實驗心理學雜誌：學習、記憶和認知，20, 621-638。

Mehler, J., Dommergues, J.-Y., Frauenfelder, U. H. & Segui, J. (1981). 音節在語音分割中的作用。言語學習與言語行為雜誌，20, 298-305。

Meyer, A. S. (1996). 詞彙訪問在短語和句子產生中的作用：來自圖片-詞語干擾實驗的結果。記憶與語言雜誌，35, 477-496。

Meyer, A. S. & Schriefers, H. (1991). 圖片-詞語干擾實驗中的語音促進：刺激開始非同步和干擾刺激型別的影響。實驗心理學雜誌：學習、記憶和認知，17, 1146-1160。

Motley, M. T., Camden, C. T. & Baars, B. J. (1982). 語言產生中異常的隱性公式化和編輯：來自實驗誘發的口誤的證據。言語學習與言語行為雜誌，21, 578-594。

Norris, D. G., McQueen, J. M., Cutler, A. & Butterfield, S. (1997). 連續語音分割中的可能詞語約束。認知心理學，34, 191-243。

Peterson, R. R. & Savoy, P. (1998). 語言產生過程中的詞彙選擇和語音編碼：級聯處理的證據。實驗心理學雜誌：學習、記憶和認知，24, 539-557。

Pisoni, D. B. & Tash, J. (1974). 對音位類別內和跨音位類別比較的反應時間。感知與心理物理學，15, 285-290。

Rizzolatti, G. & Gentilucci, M. (1988). 運動和視覺-運動前運動皮層的功能。在：P. Rakic & W. Singer. 新皮層的生物學。奇切斯特：威利。

Samuel, A. G. (1981). 音位恢復：來自新方法的見解。實驗心理學雜誌：一般，110, 474-494。

Savin, H. B. & Bever, T. G. (1970). 音位的非感知現實。言語學習與言語行為雜誌，9, 295-302。

Shattuck-Hufnagel, S. (1979). 語誤作為語言產生中序列排序機制的證據。在：W. E. Cooper & E. C. T. Walker. 句子處理：獻給梅里爾·加勒特的心理語言學研究（第 295-342 頁）。新澤西州希爾斯代爾：勞倫斯·厄爾鮑姆聯合公司。

Warren, R. M. & Warren, R. P. (1970). 聽覺錯覺和混淆。美國科學家，223, 30-36。