跳轉到內容

感覺系統/視覺訊號處理

來自華夏公益教科書,開放的世界,開放的書籍

訊號處理

[編輯 | 編輯原始碼]

如前所述,視網膜是眼睛的主要組成部分,因為它包含所有對光敏感的細胞。如果沒有它,眼睛將類似於沒有CCD(電荷耦合器件)感測器的數碼相機。這部分詳細說明了視網膜如何感知光線,光訊號如何傳輸到大腦,以及大腦如何處理訊號以形成足夠的決策資訊。

初始訊號的產生 - 光感受器功能

[編輯 | 編輯原始碼]

視覺總是從光線照射到視網膜中發現的光敏細胞開始。視網膜桿狀體和錐狀體中的光吸收視覺色素、各種酶和遞質將啟動從可見電磁刺激到電脈衝的轉換,這一過程被稱為光電轉導。以桿狀體為例,傳入的可見電磁輻射照射到視紫紅質分子,視紫紅質分子是位於桿狀體外盤結構中的跨膜分子。每個視紫紅質分子都由一組稱為視蛋白的螺旋構成,它包圍幷包圍著11-順式視黃醛,它是由於來自傳入光子的能量而發生變化的部分。在生物分子中,由於這種能量而引起構象變化的基團或分子部分有時被稱為生色團。11-順式視黃醛響應傳入的能量而變直,變成全反式視黃醛,這迫使視蛋白螺旋進一步分開,導致特定反應位點被暴露。這種“活化”的視紫紅質分子有時被稱為中視紫紅質 II。從這一點開始,即使可見光刺激停止,反應也會繼續。然後,中視紫紅質 II 可以與大約 100 個稱為轉導蛋白的 Gs 蛋白分子反應,然後在 GDP 轉換為 GTP 後產生 αs 和 βγ。活化的 αs-GTP 然後結合到 cGMP 磷酸二酯酶 (PDE),抑制正常的離子交換功能,導致細胞質中陽離子濃度降低,因此細胞極化發生變化。

自然光電轉導反應具有驚人的放大能力。一個被單個光量子啟用的單個視黃醛視紫紅質分子會導致每秒最多水解 106 個 cGMP 分子。

光轉導
[編輯 | 編輯原始碼]
光活化分子步驟的表示(改編自 Leskov 等人,2000 年)。描繪的是桿狀體中的外膜盤。步驟 1:入射光子 (hν) 被吸收並透過盤膜中構象變化啟用視紫紅質為 R*。步驟 2:接下來,R* 與轉導蛋白分子重複接觸,透過釋放結合的 GDP 以交換細胞質 GTP 來催化其啟用為 G*(步驟 3)。α 和 γ 亞基 G* 結合磷酸二酯酶 (PDE) 的抑制性 γ 亞基,啟用其 α 和 β 亞基。步驟 4:活化的 PDE 水解 cGMP。步驟 5:鳥苷酸環化酶 (GC) 合成 cGMP,它是光轉導級聯反應中的第二信使。細胞質 cGMP 水平降低會導致環核苷酸門控通道關閉,阻止 Na+ 和 Ca2+ 的進一步流入。
  1. 光子與 視黃醛光感受器 中相互作用。視黃醛經歷 異構化,從 11-順式 變成全-反式 構型。
  2. 視黃醛 不再適合視蛋白結合位點。
  3. 因此,視蛋白經歷構象變化成為中視紫紅質 II。
  4. 中視紫紅質 II 不穩定並分裂,產生視蛋白和全-反式 視黃醛。
  5. 視蛋白啟用調節蛋白 轉導蛋白。這會導致轉導蛋白與其結合的 GDP 解離,並結合 GTP,然後轉導蛋白的 α 亞基從 β 和 γ 亞基分離,GTP 仍然與 α 亞基結合。
  6. α 亞基-GTP 複合物啟用 磷酸二酯酶
  7. 磷酸二酯酶將 cGMP 降解為 5'-GMP。這降低了 cGMP 的濃度,因此鈉通道關閉。
  8. 鈉通道關閉會導致細胞因持續的鉀電流而超極化。
  9. 細胞超極化會導致電壓門控鈣通道關閉。
  10. 當光感受器細胞中的鈣水平下降時,細胞釋放的神經遞質穀氨酸的量也下降。這是因為鈣對於含有穀氨酸的囊泡與細胞膜融合並釋放其內容物是必需的。
  11. 光感受器釋放的穀氨酸量減少會導致中心開啟雙極細胞(桿狀體和錐狀體開啟雙極細胞)去極化,而錐狀體關閉雙極細胞超極化。

在沒有可見電磁刺激的情況下,包含離子、蛋白質和其他分子的雞尾酒的桿狀體細胞的膜電位差約為 -40mV。與其他神經細胞相比,這相當高(-65mV)。在這種狀態下,神經遞質穀氨酸會不斷地從軸突末端釋放出來,並被鄰近的雙極細胞吸收。隨著傳入的可見電磁輻射和前面提到的級聯反應,電位差降至 -70mV。這種細胞的超極化會導致釋放的穀氨酸量減少,從而影響雙極細胞的活動,進而影響視覺通路中的後續步驟。

錐狀體細胞和光敏感神經節細胞中也存在類似的過程,但使用不同的視蛋白。光視蛋白 I 至 III(分別為黃綠色、綠色和藍紫色)存在於三種不同的錐狀體細胞中,而黑視蛋白(藍色)可以在光敏感神經節細胞中找到。

視網膜訊號處理

[編輯 | 編輯原始碼]

不同的雙極細胞對釋放的穀氨酸的變化反應不同。所謂的開啟和關閉雙極細胞用於形成從錐狀體到雙極細胞的直接訊號流。開啟雙極細胞將透過可見電磁刺激去極化,相應的開啟神經節細胞將被啟用。另一方面,關閉雙極細胞透過可見電磁刺激超極化,關閉神經節細胞被抑制。這是直接訊號流的基本途徑。橫向訊號流將從桿狀體開始,然後傳遞到雙極細胞、中間神經元和關閉雙極細胞,這些細胞被桿狀體-中間神經元抑制,而開啟雙極細胞將透過電突觸受到刺激,在所有上述步驟之後,訊號將到達開啟或關閉神經節細胞,並建立了橫向訊號流的完整途徑。

當開啟神經節細胞中的動作電位 (AP) 被可見電磁刺激觸發時。當感受器電位增加時,AP 頻率將增加。換句話說,AP 取決於感受器電位的幅度。神經節細胞區域,其中刺激和抑制效應影響 AP 頻率,被稱為感受野 (RF)。圍繞神經節細胞,RF 通常由兩個區域組成:中心區域和環狀外圍區域。在可見電磁適應過程中,它們是可區分的。可見電磁刺激在中心區域會導致 AP 頻率增加,而刺激外圍區域會導致 AP 頻率降低。當光源關閉時,就會發生激發。因此,開啟場(中心場開啟)的名稱指的是這種區域。當然,關閉神經節細胞的 RF 以相反的方式起作用,因此被稱為“關閉場”(中心場關閉)。RF 由水平細胞組織。外圍區域的脈衝將被脈衝並傳遞到中心區域,並在那裡形成所謂的刺激對比度。此功能將使黑暗看起來更暗,而光線看起來更亮。如果整個 RF 暴露在光線下。中心區域的脈衝將佔主導地位。

訊號傳輸到皮層

[編輯 | 編輯原始碼]

如前所述,視網膜神經節細胞的軸突在視神經盤處匯聚,形成視神經。這些纖維在神經束中按特定順序排列。來自視網膜黃斑區的纖維位於中央部分,來自視網膜顳側半部的纖維佔據外周部分。當這些纖維在眼腔外時,會發生部分交叉。來自每側視網膜鼻側半部的纖維交叉到對側半部並延伸至大腦。來自顳側半部的纖維保持不交叉。這種部分交叉被稱為視交叉,視交叉後的視神經稱為視束,主要用於區別於單側視網膜神經。部分交叉的功能是將雙眼產生的右側視野的資訊僅傳遞到大腦左側,反之亦然。因此,來自身體右側和右側視野的資訊在到達前腦後部(間腦)時,全部傳遞到大腦左側。

通往中央皮層的通路

視束纖維與神經細胞之間的資訊傳遞發生在位於大腦丘腦的膝狀體外側,這是視覺訊號處理的中心部分。從這裡,資訊被傳遞到大腦對應側的枕葉皮質的神經細胞。從視網膜到大腦的連線可以分為“視網膜小細胞通路”和“視網膜大細胞通路”。視網膜小細胞通路傳遞顏色和精細細節的資訊,而視網膜大細胞通路檢測快速移動的刺激。

從視網膜到大腦的連線可以分為“視網膜小細胞通路”和“視網膜大細胞通路”。視網膜小細胞通路起源於視網膜的矮細胞,傳遞顏色和精細細節資訊;視網膜大細胞通路起始於傘形細胞,檢測快速移動的刺激。

來自標準數碼相機的訊號與視網膜小細胞通路的訊號大致對應。為了模擬視網膜小細胞通路的反應,研究人員一直在開發神經形態感覺系統,試圖模仿神經系統中基於脈衝的計算。因此,他們在神經形態電子系統中使用名為“地址事件表示”的方案進行訊號傳輸 (Liu and Delbruck 2010 [1]).

在解剖學上,視網膜大細胞和視網膜小細胞神經節細胞分別投射到外側膝狀體核 (LGN) 的 2 個腹側大細胞層和 4 個背側小細胞層。6 個 LGN 層中的每一個都接收來自同側或對側眼睛的輸入,即,左眼的視網膜神經節細胞交叉投射到右 LGN 的 1、4 和 6 層,而右眼的視網膜神經節細胞投射 (不交叉) 到其 2、3 和 5 層。從這裡,來自左右眼的資訊就被分開了。

儘管人類的視覺是由視網膜的兩個半部分整合的,並且訊號由對側大腦半球處理,但視野被認為是一個平滑且完整的單元。因此,兩個視覺皮層區域被認為是緊密連線的。這種連線被稱為胼胝體,由神經元、軸突和樹突組成。由於樹突與半球的相關點建立突觸連線,因此對一個半球上的每個點進行電刺激,都會引起另一個半球上與其連線點的電刺激。唯一例外是初級視覺皮層。

視束在側膝狀體核的相應層中建立突觸連線。然後,這些三級神經細胞的軸突向上傳遞到每個大腦半球枕葉的距狀裂。由於來自視網膜神經細胞的白色纖維和軸突束穿過該區域,因此它被稱為紋狀皮層,這恰好是我們的初級視覺皮層,有時被稱為 V1。在這一點上,來自不同眼睛的脈衝匯聚到共同的皮質神經元,然後使來自兩隻眼睛的完整輸入在一個區域內得以用於感知和理解。模式識別是腦部這一特定區域非常重要的功能,如果出現病變,會導致視覺識別障礙或盲視。

基於視束纖維按順序傳遞資訊到側膝狀體核,然後傳遞到紋狀區的方式,如果發現視網膜上的一個點刺激,那麼在側膝狀體核和紋狀皮層中產生的電活動響應將會出現在特定的視網膜點的小區域。這是一種明顯的點對點的訊號處理方式。如果刺激整個視網膜,那麼響應將會出現在側膝狀體核和紋狀皮層灰質區域。可以將該腦區對映到視網膜視野,或者更常見的是,對映到視覺視野。

該通路中的任何進一步步驟都超出了本書的範圍。請放心,還有許多進一步的層次和中心存在,它們專注於特定的任務,例如顏色、方向、空間頻率、情緒等等。

視覺系統中的資訊處理

[edit | edit source]

在對視覺系統中訊號處理的一些更重要概念有了更深入的理解後,對處理後的感覺資訊的理解或感知是難題中最後一個重要的部分。視覺感知是將眼睛接收到的資訊轉化為對外部事物的理解的過程。它使我們意識到周圍的世界,並讓我們更好地理解它。基於視覺感知,我們學習模式,然後在以後的生活中應用這些模式,我們根據這些模式和獲得的資訊做出決定。換句話說,我們的生存依賴於感知。由於處理過程過於複雜,需要不同的專門機制來感知所看到的事物,因此視覺感知領域被劃分為不同的子領域。這些子領域包括:顏色感知、運動感知、深度感知和麵部識別等等。

靈長類視覺皮層中的深層層次結構

[edit | edit source]
視覺系統中的深層層次結構

儘管電子系統的計算能力不斷提高,但動物和人類在許多工上仍然遠遠超過計算機——其中之一就是感知和理解資訊。無論是手機中的計算機,還是佔據整個房間的超級計算機,經典計算機本質上都是數字運算器。它可以在極短的時間內進行大量的計算。它所缺乏的是對它正在處理的資訊進行抽象。如果你將攝像頭連線到你的計算機,它“感知”到的影像只是一個畫素網格,一個二維數字陣列。而人類會立即識別出場景的幾何形狀、影像中的物體,甚至可能識別出正在發生的事情的背景。我們的這種能力是由專門的生物機制——大腦的視覺系統提供的。它以一種分層的方式處理我們看到的一切,從影像的簡單特徵開始,到更復雜的特徵,一直到將物體分類到不同的類別。因此,視覺系統被認為具有深層層次結構。靈長類視覺系統的深層層次結構啟發了計算機科學家建立人工神經網路模型,這些模型也具有多個層,其中每一層都對輸入資料建立更高層次的概括。

大約一半的人類新皮層專門用於視覺。視覺資訊的處理至少在 10 個功能層級上進行。早期視覺區域中的神經元在視覺空間的小區域內提取簡單的影像特徵。當資訊傳遞到更高的視覺區域時,神經元對越來越複雜的特徵作出反應。隨著資訊處理層級的提高,表示變得更加不變——對特徵大小、旋轉或位置的具體變化不那麼敏感。此外,更高視覺區域中神經元的感受野大小增加,表明它們被調諧到更全域性的影像特徵。這種分層結構可以實現高效的計算——不同的更高視覺區域可以使用在較低區域中計算出的相同資訊。在早期視覺區域中建立的通用場景描述被大腦的其他部分用於完成各種不同的任務,例如物體識別和分類、抓取、操作、運動規劃等等。

皮層下視覺

[edit | edit source]

視覺資訊的**神經處理**早在任何皮質結構之前就已經開始了。視網膜上的感光細胞檢測光線並向視網膜神經節細胞傳送訊號。感光細胞的**感受野**大小為一度的百分之一(當你的手臂伸直在你面前時,一度大小的感受野大約是你拇指的大小)。神經節細胞的輸入數量,因此其感受野大小取決於位置——在視網膜中心,它接收來自少至五個感光細胞的訊號,而在周圍,單個細胞可以有數千個輸入。這意味著**視網膜中心**的空間解析度最高,也稱為**中央凹**。由於這一特性,靈長類動物擁有**注視控制機制**,將視力指向感興趣的特徵,使其投射到中央凹上。

神經節細胞被選擇性地調節以檢測影像的各種特徵,例如亮度對比度、顏色對比度以及運動的方向和速度。所有這些特徵都是進一步處理管道中使用的**主要資訊**。如果存在神經節細胞無法檢測到的視覺刺激,那麼它們也無法被任何皮質視覺區域使用。

神經節細胞投射到丘腦中的一個區域,稱為**外側膝狀核**(LGN),它反過來將訊號傳遞給皮質。目前尚無已知的重要計算發生在LGN中——視網膜神經節細胞和LGN細胞之間幾乎是一對一的對應關係。但是,只有 5% 的 LGN 輸入來自視網膜——所有其他輸入都是**皮質反饋投射**。雖然視覺系統通常被認為是一個**前饋系統**,但**迴圈反饋連線**以及**橫向連線**是整個視覺皮層中常見的特徵。反饋的作用尚未完全瞭解,但據推測它歸因於注意力、預期、想象力和填補缺失資訊等過程。

皮質視覺

[edit | edit source]
視覺系統的主要區域

視覺皮層可以分為三個大區域——**枕葉部分**,它接收來自LGN的輸入,然後將輸出傳送到**背側通路**和**腹側通路**。枕葉部分包括V1-V4和MT區域,這些區域處理視覺資訊的**不同方面**,併產生**通用場景表示**。**背側通路**參與空間分析和動作計劃。**腹側通路**參與目標識別和分類。

V1 是處理視覺資訊的**第一個皮質區域**。它對邊緣、光柵、線端、運動、顏色和**視差**(一個點投射到左右視網膜上的角度差)敏感。**層次化自下而上處理**最直接的例子是將來自多個具有**中心-周圍感受野**的神經節細胞的輸入線性組合以建立條形表示。這是由V1的**簡單細胞**完成的,最初由著名的神經科學家**Hubel和Wiesel**描述。這種資訊整合意味著簡單細胞對條形的精確位置敏感,並且具有相對較小的感受野。V1的**複雜細胞**接收來自簡單細胞的輸入,並且也對線性定向模式做出反應,但它們對條形的精確位置不敏感,並且具有更大的感受野。此步驟中存在的計算可能是一種**MAX 類操作**,它產生的響應幅度類似於與單個刺激相關的較大響應。一些簡單細胞和複雜細胞還可以檢測條形的末端,並且一部分 V1 細胞也對其各自感受野內的區域性運動敏感。

V2 區域具有更復雜的輪廓表示,包括**紋理定義的輪廓**、**幻覺輪廓**和具有**邊界所有權**的輪廓。V2 還建立在 V1 中的**絕對視差檢測**的基礎上,並具有對**相對視差**敏感的細胞,即空間中兩點之間絕對視差的差值。V4 區域接收來自 V2 和 V3 區域的輸入,但關於 V3 中發生的計算知之甚少。V4 區域具有對具有不同曲率的輪廓以及具有特定角度的頂點敏感的神經元。另一個重要特徵是對**亮度不變色調**的編碼。這與 V1 形成對比,V1 中的神經元對兩個主軸(紅綠和黃藍)上的顏色對立做出反應,而不是實際顏色。V4 進一步輸出到腹側通路,到**下顳葉皮層**(IT),透過病灶研究表明,它對於目標辨別至關重要。

下顳葉皮層:目標辨別

[edit | edit source]
TE 區域的刺激減少

下顳葉皮層 (IT) 分為兩個區域:TEO 和 TE。TEO 區域整合關於多個輪廓元素的形狀和相對位置的資訊,並且主要包含對特徵的簡單組合做出反應的細胞。TEO 神經元的感受野大小約為 3-5 度。TE 區域包含具有明顯更大感受野(10-20 度)的細胞,這些細胞對人臉、手和複雜的特徵配置做出反應。TE 中的細胞對視覺特徵做出反應,這些特徵是對感興趣目標的更簡單概括,但比簡單的條形或點更復雜。這透過**Tanaka 等人的刺激減少方法**得到證明,其中首先測量對目標的反應,然後用更簡單的表示替換目標,直到縮小 TE 神經元所響應的關鍵特徵。

似乎 IT 中的神經元將來自腹側通路較低級別的中等複雜度的各種特徵拉到一起,以構建目標部分的模型。對特定目標具有選擇性的 TE 中的神經元必須滿足兩個看似矛盾的要求——**選擇性**和**不變性**。它們必須透過對視網膜影像中特徵的敏感性來區分不同的目標。但是,同一個目標可以從不同的角度和距離在不同的光照條件下被觀察到,從而產生同一目標的高度不同的視網膜影像。為了將所有這些影像視為等效的,必須推匯出對某些變換(如位置、光照、視網膜上的大小等變化)具有魯棒性的不變特徵。TE 區域的神經元對位置和大小以及部分遮擋、深度位置和光照方向表現出不變性。深度旋轉已被證明具有最弱的不變性,但如果目標是人臉除外。

目標類別在 TE 區域尚未明確存在——神經元通常可能對同一類別的幾個(但不是所有)示例(例如樹的影像)做出反應,並且它也可能對不同類別的示例(例如樹和非樹)做出反應。目標識別和分類很可能涉及從 TE 神經元的大量群體中進行取樣,以及接收來自其他大腦區域的輸入,例如負責理解場景上下文的大腦區域。最近的**讀出實驗**已經證明,統計分類器(例如支援向量機)可以接受訓練,根據少數 TE 神經元的反應來分類目標。因此,TE 神經元群體原則上可以透過其組合活動可靠地發出目標類別的訊號。有趣的是,也有一些關於**內側顳葉**中高度選擇性神經元的報告,它們對非常特定的線索做出反應,例如,對不同影像中的比薩斜塔或特定人的面部做出反應。

視覺系統的學習

[edit | edit source]

學習可以改變神經元的視覺特徵選擇性,學習的影響在更高的層次結構級別上變得更強。目前尚無關於視網膜學習的已知證據,並且 V1 中的**方向圖**似乎也主要由基因決定。但是,練習**方向識別**會改善 V1 神經元的方向編碼,方法是增加**調諧曲線的斜率**。在 V4 中已經觀察到類似但更大的影響。在 TE 區域,相對較少的視覺訓練對視覺感知具有明顯的神經生理影響,無論是單細胞水平還是 fMRI 水平。例如,將兩個物體相互融合會增加它們感知到的相似性。總體而言,似乎即使是成年視覺皮層也具有相當大的可塑性,並且可塑性水平可以顯著提高,例如,透過服用特定藥物或生活在豐富環境中。

深度神經網路

[edit | edit source]

與靈長類動物視覺系統的深層層次結構類似,深度學習架構試圖透過使用多級非線性變換來對輸入資料的更高層次抽象進行建模。Hubel 和 Wiesel 提出的模型,其中資訊從視網膜和外側膝狀體到 V1 中的簡單細胞和複雜細胞級聯整合和傳播,啟發了第一個深度學習架構——新認知機(neocognitron)的建立,這是一種多層人工神經網路模型。它被用於不同的模式識別任務,包括手寫字元的識別。然而,訓練該網路需要很長時間(以天為單位),而且自其在 1980 年代問世以來,深度學習直到 2000 年代中期才受到廣泛關注,這得益於數字資料的豐富和更快訓練演算法的發明。深度神經網路已被證明在不久前看似只有人類才能完成的任務中非常有效,例如識別照片中特定人物的面部、理解人類語音(在某種程度上)以及將文字翻譯成外語。此外,它們已被證明在工業和科學領域非常有用,例如尋找潛在的藥物候選者、繪製大腦中的真實神經網路以及預測蛋白質的功能。必須指出的是,深度學習只是從大腦中獲得非常鬆散的靈感,它更像是計算機科學/機器學習領域的成就,而不是神經科學的成就。基本相似之處在於,深度神經網路由以非線性方式整合資訊輸入的單元(神經元)組成,並相互發送訊號(突觸),以及存在資料越來越抽象的不同層次表示。深度學習中使用的“神經元”的學習演算法和數學描述與大腦中實際發生的流程非常不同。因此,深度學習的研究,雖然為更先進的人工智慧提供了巨大的推動力,但只能對大腦提供有限的見解。

帶主要元件的神經元示例。
神經網路基本單元示例。在本例中,啟用函式是修正線性單元(ReLU),但也存在其他可能性,例如 sigmoid 函式或雙曲正切函式。偏差改變了單元的啟用閾值,因此它類似於神經元中動作電位的閾值。
深度神經網路示例。每個正方形代表上面影像中描述的一個單元。

參考文獻

[edit | edit source]
關於視覺系統中深層層次結構的論文
  • Kruger, N.; Janssen, P.; Kalkan, S.; Lappe, M.; Leonardis, A.; Piater, J.; Rodriguez-Sanchez, A. J.; Wiskott, L. (August 2013). "Deep Hierarchies in the Primate Visual Cortex: What Can We Learn for Computer Vision?". IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (8): 1847–1871. doi:10.1109/TPAMI.2012.272.
  • Poggio, Tomaso; Riesenhuber, Maximilian (November 1, 1999). Nature Neuroscience. 2 (11): 1019–1025. doi:doi:10.1038/14819. {{cite journal}}: Check |doi= value (help); Missing or empty |title= (help)
刺激減少實驗
視覺系統中學習的證據
  • Li, Nuo; DiCarlo, James J. (September 23, 2010). "Unsupervised Natural Visual Experience Rapidly Reshapes Size-Invariant Object Representation in Inferior Temporal Cortex". Neuron. 67 (6): 1062–1075. doi:10.1016/j.neuron.2010.08.029.
  • Raiguel, S.; Vogels, R.; Mysore, S. G.; Orban, G. A. (June 14, 2006). "Learning to See the Difference Specifically Alters the Most Informative V4 Neurons". Journal of Neuroscience. 26 (24): 6589–6602. doi:10.1523/JNEUROSCI.0457-06.2006.
  • Schoups, A; Vogels, R; Qian, N; Orban, G (August 2, 2001). "Practising orientation identification improves orientation coding in V1 neurons". Nature. 412 (6846): 549–53. PMID 11484056.
深度學習研究現狀的最新且易於理解的概述
  • Jones, Nicola (January 8, 2014). "Computer science: The learning machines". Nature. 505 (7482): 146–148. doi:10.1038/505146a.

運動感知

[edit | edit source]

運動感知是推斷運動物體速度和方向的過程。人類的 V5 區和靈長類動物的 MT 區(中間顳區)負責運動皮質感知。V5 區是外側枕葉的一部分,它是大腦枕葉區域,靠近初級視覺皮層。V5 區的功能是檢測視覺刺激的速度和方向,並將區域性視覺運動訊號整合到全域性運動中。V1 區或初級視覺皮層位於大腦的枕葉,左右半球都有。它處理視覺資訊的第一個皮質處理階段。這個區域包含眼睛覆蓋的視覺場的完整地圖。V5 區和 V1 區(初級視覺皮層)之間的區別在於,V5 區可以將區域性訊號或物體各個部分的運動整合到整個物體的全域性運動中。另一方面,V1 區對發生在感受野內的區域性運動作出反應。來自這些眾多神經元的估計值在 V5 區整合在一起。

運動被定義為視網膜照度隨空間和時間變化的變化。運動訊號被分類為一階運動二階運動。這些運動型別在以下段落中簡要描述。

"Beta 運動"示例。

一階運動感知指的是當兩個或多個視覺刺激在時間上交替出現並消失,從而產生不同的運動感知時,所感知到的運動。一階運動也被稱為“視運動”,它被用於電視和電影中。一個例子是“β運動”,這是一種錯覺,其中靜止的影像看起來在移動,儘管它們實際上並沒有移動。這些影像之所以呈現出運動的外觀,是因為它們的變化和移動速度快於人眼所能探測的速度。這種視覺錯覺之所以發生,是因為人類視神經每秒響應十次光變化,因此任何快於這個速度的變化都會被記錄為連續運動,而不是單獨的影像。

二階運動指的是當一個移動的輪廓由對比度、紋理、閃爍或其他一些不導致影像亮度或運動能量增加的質量來定義時發生的運動。有證據表明,一階運動和二階運動的早期處理是由不同的通路進行的。二階機制具有較差的時間解析度,並且在它們響應的空間頻率範圍內是低通的。二階運動產生較弱的運動後效。一階和二階訊號在 V5 區域整合。

在本章中,我們將分析運動感知和運動分析的概念,並解釋為什麼這兩個術語不應該互換使用。我們將分析感知運動的機制,如運動感測器和特徵跟蹤。存在三種主要的理論模型試圖描述運動神經元感測器的功能。已經進行了實驗測試來確認這些模型是否準確。不幸的是,這些測試的結果是不確定的,可以說,沒有一個模型能夠完全描述運動感測器的功能。然而,每個模型都模擬了運動感測器的某些特徵。本章還描述了這些感測器的某些屬性。最後,本章展示了一些運動錯覺,證明了我們的運動感可能會被刺激運動感測器的靜止外部因素所誤導,就像運動一樣。

運動分析和運動感知
[編輯 | 編輯原始碼]

運動分析運動感知的概念經常被混淆為可以互換的。運動感知和運動分析相互重要,但它們並不相同。

運動分析指的是處理運動訊號的機制。與運動感知不一定依賴於視網膜上影像運動產生的訊號類似,運動分析可能導致也可能不導致運動感知。這種現象的一個例子是vection,它發生在一個人處於靜止狀態,但觀察到的物體正在移動時,感知到自己正在移動。vection 表明,即使物體沒有被感知為來自物體的運動,物體運動也可以被分析。這個關於運動分析的定義表明,運動是一個基本的影像屬性。在視覺區域,它在每個點上都被分析。來自這種分析的結果被用來推匯出感知資訊。

運動感知指的是獲得關於影像中物體和表面運動的感知知識的過程。運動感知可以透過視網膜中精細的區域性感測器或透過特徵跟蹤來感知。區域性運動感測器是專門的神經元,對運動敏感,類似於專門的顏色感測器。特徵跟蹤是感知運動的間接方法,它包括根據物體在時間上視網膜位置的變化來推斷運動。它也被稱為三階運動分析。特徵跟蹤透過將注意力集中在特定物體上,並觀察其位置隨時間的變化來工作。

運動感測器
[編輯 | 編輯原始碼]

運動檢測是視覺處理的第一階段,它得益於專門的神經過程,這些過程對影像在時間上區域性強度變化的資訊做出反應。運動是在影像中所有位置獨立於其他影像屬性進行感知的。運動感測器的存在已被證實,它們在影像中的所有點上都以區域性方式執行。運動感測器是位於視網膜中的專用神經元感測器,能夠檢測由兩個短暫且微小的閃光產生的運動,這些閃光彼此非常接近,以至於特徵跟蹤無法檢測到它們。存在三種主要的模型試圖描述這些專門感測器的工作方式。這些模型彼此獨立,它們試圖模擬運動感知的特定特徵。雖然沒有足夠的證據來支援這些模型中的任何一個代表視覺系統(尤其是運動感測器)感知運動的方式,但它們仍然正確地模擬了這些感測器的某些功能。

兩種不同的運動檢測機制。左)“Reichardt 檢測器”由兩個映象對稱的子單元組成。在每個子單元中,兩個相鄰點上測量的亮度值在其中一個被時間常數為 τ 的低通濾波器延遲後,相互相乘 (M)。乘法器的輸出訊號最終被減去。右)在梯度檢測器中,一個光感受器 (δI/δt,左) 後測量的亮度時間梯度除以亮度空間梯度 (δI/δx)。這裡,空間梯度透過兩個相鄰點上的亮度值之間的差來近似。

Reichardt 檢測器

Reichardt 檢測器用於模擬運動感測器如何響應一階運動訊號。當一個物體從視覺區域的 A 點移動到 B 點時,會產生兩個訊號:一個在運動開始之前產生,另一個在運動完成之後產生。這個模型透過檢測視網膜上一個點的亮度變化,並將它與另一個相鄰點的亮度變化在短時間延遲後的變化相關聯來感知這種運動。Reichardt 檢測器基於相關(涉及依賴關係的統計關係)的原理執行。它透過相鄰點上的亮度訊號的時空相關性來解釋運動訊號。它利用了這樣一個事實,即在一個移動物體的軌跡上,兩個不同點的兩個感受野接收了相同訊號的時間延遲版本——亮度模式沿著一個軸移動,軸上一個點的訊號是軸上之前訊號的時間延遲版本。Reichardt 檢測器模型有兩個空間上分離的相鄰檢測器。檢測器的輸出訊號以如下方式相乘(相關):一個訊號乘以一個時間延遲版本的第二個訊號。相同的過程被重複,但方向相反(時間延遲的訊號成為第一個訊號,反之亦然)。然後,這兩個乘法的差值被取,結果給出運動速度。檢測器的響應取決於刺激的相位、對比度和速度。為了編碼模式的真實速度,需要許多在不同速度下調諧的檢測器。對這種檢測器最有力的實驗證據來自對 barely visible 目標的方向辨別的研究。


運動能量濾波

運動能量濾波器是一種基於相位不變濾波器原理的運動感測器模型。這個模型構建了在時空上定向的空間時間濾波器,以匹配移動模式的結構。它由可分離濾波器組成,其中空間輪廓在時間上保持相同的形狀,但按時間濾波器的值縮放。運動能量濾波器透過將可分離濾波器加在一起,來匹配移動模式的結構。對於每個運動方向,會生成兩個時空濾波器:一個是對稱的(條狀),另一個是非對稱的(邊緣狀)。這些濾波器的平方和被稱為運動能量。兩個方向的訊號差異被稱為對抗能量。然後將這個結果除以另一個濾波器的平方輸出,該濾波器調諧到靜態對比度。進行這種除法是為了考慮對比度對運動的影響。運動能量濾波器可以模擬許多運動現象,但它會產生一個與相位無關的測量值,該測量值隨著速度的增加而增加,但不會給出可靠的速度值。


時空梯度


這種運動感測器模型最初是在計算機視覺領域開發的,它基於這樣一個原理,即影像亮度的時域導數與影像亮度的空域導數之比給出運動速度。需要注意的是,在影像的峰值和谷值處,這個模型不會計算出適當的答案,因為分母中的導數將為零。為了解決這個問題,可以分析相對於空間和時間的一階和高階空間導數。時空梯度是確定影像中所有點的運動速度的一個很好的模型。

運動感測器是方向選擇性的
[編輯 | 編輯原始碼]

運動感測器的特性之一是方向選擇性,它將運動分析限制在一個維度上。運動感測器只能記錄沿著與感測器首選方向正交的軸線上的單一維度的運動。包含單一方向特徵的刺激只能被感知為沿著與刺激方向正交的方向移動。一維運動訊號提供關於二維物體運動的模糊資訊。為了確定二維物體或圖案的真實運動方向,需要一個第二階段的運動分析。將來自不同方向調整的感測器的單一維運動訊號組合起來,可以產生一個明確的二維運動訊號。二維運動分析依賴於來自區域性寬泛方向感測器以及來自狹窄方向感測器的訊號。

特徵追蹤
[edit | edit source]

我們感知運動的另一種方式是透過特徵追蹤。特徵追蹤包括分析物體的區域性特徵是否改變了位置,並從這種變化中推斷出運動。在本節中,我們將提到一些關於特徵追蹤的特性。

當移動刺激發生得非常快時,特徵追蹤會失效。特徵追蹤相對於運動感測器的一個優勢是,即使運動被間歇性的空白間隔隔開,它們也能感知到物體的運動。它們還能區分這兩個階段(運動和空白間隔)。另一方面,運動感測器只會將空白與移動刺激整合起來,並看到一個連續的運動。特徵追蹤器根據識別特徵的位置進行操作。因此,它們有一個最小距離閾值,該閾值與特徵位置可以被識別的精度相匹配。特徵追蹤器不會表現出運動後效應,運動後效應是由視覺適應引起的視覺錯覺。當觀察到一個移動的刺激後,一個靜止的物體看起來似乎朝與之前觀察到的移動刺激相反的方向移動。這種機制不可能同時監測視覺場中不同部位的多個運動。另一方面,對於運動感測器來說,多個運動不是問題,因為它們在整個視覺場中並行執行。

使用上述資訊進行的實驗已經得出了一些關於特徵追蹤器的有趣結論。對短暫刺激的實驗表明,特徵追蹤器不能感知高對比度的顏色模式和對比度模式,而是由運動感測器感知。對空白間隔的實驗已經證實,特徵追蹤可以在顯示屏中存在空白間隔的情況下發生。只有在高對比度下,運動感測器才能感知到色度刺激和對比度模式的運動。在低對比度下,特徵追蹤器分析色度模式和對比度包絡的運動,而在高對比度下,運動感測器分析對比度包絡。在受試者進行多個運動判斷的實驗中,表明特徵追蹤是一個在意識控制下發生的程序,並且是我們在低對比度顯示屏中分析對比度包絡運動的唯一方式。這些結果與以下觀點一致:對比度包絡和顏色模式的運動依賴於特徵追蹤,除非顏色遠高於閾值或平均對比度很高。這些實驗的主要結論是,可能是特徵追蹤使得能夠感知對比度包絡和顏色模式。

運動錯覺
[edit | edit source]

由於運動檢測過程,一些靜態影像可能看起來像是正在移動。這些影像讓我們洞悉了視覺系統所做的假設,被稱為視覺錯覺。

與一階運動訊號相關的著名運動錯覺是閃光現象,這是一種光學錯覺,使我們感知到運動而不是影像序列。這種運動錯覺使我們能夠將電影視為一個連續體,而不是單獨的影像。閃光現象使一組以恆定速度變化的靜止影像看起來像一個恆定的運動。閃光現象不應該與β運動混淆,因為前者是由一系列發光脈衝引起的視運動,而後者是由發光靜止脈衝引起的視運動。

運動錯覺發生在運動感知、運動分析以及對這些訊號的解釋具有誤導性時,我們的視覺系統就會產生關於運動的錯覺。這些錯覺可以根據允許它們發生的程序進行分類。錯覺被歸類為與運動感測、二維積分和三維解釋相關的錯覺。

關於運動感測的最流行的錯覺是四衝程運動、RDK和二階運動訊號錯覺。關於二維積分的最流行的運動錯覺是運動捕捉、方格運動和直接排斥。類似地,關於三維解釋的錯覺是轉換運動、運動深度、陰影運動、生物運動、立體運動、隱式圖形運動和二衝程運動。存在著更多運動錯覺,它們都顯示出關於人類運動檢測、感知和分析機制的一些有趣的東西。欲瞭解更多資訊,請訪問以下連結:http://www.lifesci.sussex.ac.uk/home/George_Mather/Motion/

開放問題
[edit | edit source]

雖然我們仍然不瞭解關於運動感知的大部分細節,但是理解運動感知機制以及運動錯覺可以使讀者對該領域的前沿狀態有一個很好的概述。關於運動感知的一些開放問題是三維影像在全域性運動中的形成機制和孔徑問題

來自視網膜的全域性運動訊號被整合以形成二維全域性運動訊號;然而,三維全域性運動是如何形成的尚不清楚。孔徑問題出現是因為視覺系統中的每個感受野只覆蓋視覺世界的一小部分,這會導致感知上的模糊性。孔徑問題指的是一個移動的輪廓,當局部觀察時,與不同的運動可能性一致。這種模糊性源於幾何學——與輪廓平行的運動無法檢測到,因為這種運動分量的變化不會改變透過孔徑觀察到的影像。唯一可以測量的分量是垂直於輪廓方向的速度;因此,運動速度可以是速度空間中一條線上的任何運動。這種孔徑問題不僅在直線輪廓中觀察到,而且在平滑彎曲的輪廓中也觀察到,因為它們在區域性觀察時近似於直線。雖然解決孔徑問題的機制仍然未知,但存在一些關於如何解決它的假設。例如,透過組合來自空間或同一物體的不同輪廓的資訊,可以解決這個問題。

結論
[edit | edit source]

在本章中,我們介紹了運動感知以及我們的視覺系統檢測運動的機制。運動錯覺表明運動訊號可能是具有誤導性的,因此會導致關於運動的錯誤結論。重要的是要記住,運動感知和運動分析並不相同。運動感測器和特徵追蹤器相互補充,使視覺系統感知運動。

運動感知很複雜,它仍然是一個開放的研究領域。本章描述了關於運動感測器功能的模型,以及關於特徵追蹤器特性的假設;然而,需要更多實驗來了解這些機制的特性,並能夠構建更準確地模擬視覺系統實際過程的模型。

本章描述的各種運動分析和運動感知機制,以及為描述它們而設計的人工模型的複雜性證明了皮層處理來自外部環境的訊號的方式非常複雜。數以千計的專門神經元整合和解釋區域性訊號的片段,在我們的大腦中形成移動物體的全域性影像。理解如此多的參與者和過程必須在我們體內協同工作才能感知運動,這使得我們人類能夠如此輕鬆地做到這一點,這一點更加令人矚目。

華夏公益教科書