感覺系統/計算機模型/高效編碼
如前所述,視覺訊號在視覺皮層中被處理以解釋資訊。在瞭解了視覺資訊的處理方式之後,就出現瞭如何對資訊進行編碼的問題。
尤其是在視覺系統中,資料量巨大:視網膜每秒感知約 1010 位,其中約 3-6 * 106 位/秒透過每個視神經中的約 100 萬個軸突傳遞。[1] [2] 結果是隻有 104 位/秒到達 V1 的 IV 層。由於估計意識的容量 <= 100 位/秒1,減少資料量不僅足夠,而且是必要的。
在人類中,神經細胞的放電速率約為 0.2 Hz 到 10 Hz。[3] 資訊的編碼也依賴於精確的放電時間和頻率。[4] 更難的是,處理網路還必須處理噪聲:視網膜噪聲,即“視網膜感光細胞電訊號的自發波動”[5],出現在視杆細胞中,由視紫紅質的熱分解產生,創造出“與光落在視杆細胞上並吸收一個量子時發生的事件無法區分”的事件[6],也出現在錐體細胞中,具有分子起源。[4] 有人認為,視網膜噪聲比中樞神經系統中由神經細胞突觸隨機活動產生的噪聲更能限制視覺敏感度,從而產生額外的動作電位。[7]
每項神經活動都需要能量:大腦消耗約 20% 的靜息代謝。每個神經元每秒增加一個動作電位將使氧氣消耗量增加 145 毫升/100 克灰質/小時。人類血液迴圈系統每分鐘向人類大腦提供約 1.5 升血液,為其提供能量和氧氣。 “對於活躍細胞中 4 Hz 的動作電位頻率,大約 15% 的神經元組應該同時活躍以編碼一個條件”。[8]
為了處理速度、準確性和可用能量有限的神經系統需要處理的海量資料,需要高效的編碼。
在聽覺系統中,人類(言語)交流所依賴的基本結構是音素,即語言中區別一個詞與另一個詞的不同基本聲音元素。[9] 例如,“eye”這個詞只包含一個音素 /ai/,而“code”這個詞包含 /k/、/ə/、/ʋ/、/d/ 這些音素。
類似地,對於視覺系統,一個高效的編碼將由影像結構作為基本元素組成,這些元素可以組合在一起以表示感知到的環境(即影像)。 作為一個保留視覺感知場的基本特徵的模型,Olshausen & Field 提出了一個最佳化演算法,該演算法在保留影像資訊的同時找到稀疏編碼。[10]

資訊壓縮的原理可以用“k-means”方法很好地演示,該方法應用於(二維)影像。這是作為 python 庫 scikit-image 的一部分實現的。[11] 如圖 1 所示,該方法是壓縮影像或一般資料,處理它,然後將其轉換回來。這樣處理步驟更有效,並且與生物系統中存在的方法相比,還存在無失真壓縮方法,例如小波,它允許正確的反向轉換。
生物系統不需要無失真壓縮。資訊丟失用前面提到的 scikit-learn[11] 和 youtube[12] 上的 k-means 演算法示例說明。
介紹
在 20 世紀 90 年代末和 21 世紀初,Bruno Olshausen 和 Michael Lewicki 分別研究了大腦如何編碼自然影像[10] 和自然聲音[13],並試圖建立一個儘可能準確地複製此過程的模型。發現兩種輸入訊號的過程可以用非常相似的方法建模。高效編碼理論的目標是使用一組統計獨立的特徵[14] 隱藏關於刺激的最大資訊量。自然影像的高效編碼產生了一組區域性化的、定向的、帶通的 Gabor 小波狀濾波器[10],[15]。伽馬音濾波器是聽覺系統中這些濾波器的等效物。為了區分影像中的形狀,最重要的特徵是邊緣檢測,這是透過 Gabor 濾波器實現的。在聲音處理中,聲音起始或“聲學邊緣”可以由類似於伽馬音濾波器組的濾波器池編碼[13]。
視覺
1996 年,Bruno Olshausen 和他的團隊首次建立了一個學習演算法,該演算法旨在為自然影像找到稀疏線性編碼,並最大限度地提高稀疏性,從而形成一組區域性化的、定向的、帶通的感受野,類似於在初級視覺皮層中發現的那些[10]。
它們從假設一個影像 可以被描述為基函式的線性疊加開始,
引數 取決於選擇了哪些基函式 ,並且對於每個影像都是不同的。有效編碼的目標是找到一組 ,它們 *跨越影像空間* 並且 *獲得儘可能在統計上獨立的引數 *。
自然場景包含許多非高斯的高階統計結構 [16]。因此,使用主成分分析來實現這兩個目標將是不合適的。一旦聯合熵小於各個熵的總和,就可以檢測出一組引數之間的統計依賴關係
熵 這裡指的是 夏農熵,它是變數的期望值(平均值)。聯合熵 是衡量與一組變數相關的隨機性的指標。假設自然影像具有“稀疏結構”,這意味著影像可以用大量特徵中的一小部分特徵來表示 [17],[16]。目標是尋找降低熵的程式碼,其中每個引數的機率分佈是單峰的,並且在零附近達到峰值。這可以被表述為一個最佳化問題 [14]
其中 是正的權重係數。第一個量評估自然影像與重建影像之間的均方誤差。
如果對於給定的圖片,不同的引數以稀疏方式分佈,則第二個量將被賦予更高的成本。這是透過將每個係數的活動加起來,代入一個非線性函式 來計算的。
其中 是一個縮放常數。對於 ,函式偏向於方差相等且非零引數數量最少的活動狀態(例如 ,,)。
透過最小化總成本 關於 ,實現了學習。 透過對多個影像變化的平均 的梯度下降收斂。該演算法使基函式能夠在維度上過完備且非正交[18],而不會降低稀疏性狀態。
在學習過程之後,該演算法在人工資料集上進行了測試,確認它適合於檢測資料中的稀疏結構。基函式很好地定位、定向,並且對不同的空間尺度具有選擇性。將每個 對斑點的響應排列到每個位置,建立了感受野和基函式之間的相似性。所有基函式共同形成一個完整的影像程式碼,以類似於小波程式碼的方式跨越空間位置、方向和尺度的聯合空間。
總之,Olshausen 團隊的結果表明,區域性、定向、帶通感受野出現的兩個充分目標是資訊得以保留以及表示是稀疏的。
聽覺

Lewicki 在 Olshausen 之後於 2002 年發表了他的研究結果。他測試了受先前論文啟發的有效編碼理論,以推匯出針對不同類別自然聲音的有效程式碼,這些程式碼包括動物發聲、環境聲音和人類語音。
他們使用了獨立成分分析 (ICA),它能夠提取訊號的線性分解,從而最大程度地減少相關性和高階統計依賴性[19]。然後,這種學習演算法為每個資料集生成一個濾波器,該濾波器可以解釋為時頻視窗的形式。濾波器形狀由集合的統計結構決定[13]。
當應用於不同的樣本聲音時,該方法獲得了具有類似於小波的時頻視窗的濾波器,用於環境聲音,其中聲音在時間和頻率上都區域性化(圖 1c)。對於動物發聲,獲得了類似於傅立葉變換的平鋪模式,其中聲音在頻率上區域性化,但在時間上不區域性化(圖 1d)。語音包含兩者的混合,其中環境聲音與動物聲音的權重為 2:1(圖 1e)。這是因為語音是由諧波母音和非諧波子音組成的。這些模式以前曾在動物和人類中透過實驗觀察到[20]。
為了分解這三種聲音型別的核心差異,Lewicki 的團隊分析了頻寬、濾波器銳度和時間包絡。對於環境聲音,頻寬隨中心頻率的增加而增加,而對於動物發聲,頻寬保持恆定。語音也增加,但低於環境聲音。由於時間/頻率權衡,時間包絡曲線表現相似。當將銳度相對於中心頻率與生理測量[21],[22](來自語音資料)與組合聲音集合的銳度進行比較時,確認了兩種複雜性之間的對應關係。
必須注意的是,為了進行這種分析,需要進行幾個近似。他們的分析忽略了聲音強度的變化。聽覺系統遵循某些強度閾值,根據這些閾值選擇頻率[23]。然而,與這些測量結果進行比較的生理測量結果是使用孤立的純音進行的,這反過來限制了這種模型的應用範圍,但並沒有使其失去信譽。此外,濾波器在時間上的對稱性與生理特徵的“伽馬音調濾波器”不匹配。修改演算法使其具有因果性是可能的,然後濾波器的時間包絡將變得不對稱,類似於伽馬音調濾波器。
結論
這兩個系統之間出現了一種類比。視覺刺激的位置和空間頻率由視覺皮層中的神經元編碼。這兩個變數之間的調整類似於聽覺編碼中時間和頻率之間的調整。
這種並行性的另一個有趣的方面是為什麼 ICA 在聽覺系統分析的早期階段闡明瞭神經元響應特性,而在視覺系統中闡明瞭皮層神經元的響應特性。必須注意的是,這兩個系統的 神經元 解剖結構有所不同。在視覺系統中,瓶頸出現在視神經處,其中來自 1 億個光感受器的資訊被壓縮到 100 萬個視神經纖維中。然後,資訊在皮層中擴散了 50 倍。在聽覺系統中,沒有出現瓶頸,來自 3000 個耳蝸內毛細胞的資訊直接傳遞到 30000 個聽覺神經纖維上。然後,ICA 實際上被分配到表示擴充套件點[24]。
參考資料
[edit | edit source]- ↑ Marcus E. Raichle:關於大腦功能的兩種觀點 趨勢認知科學。2010 年 4 月;14(4):180-90
- ↑ Anderson, C.H. 等人。(2005)定向視覺注意和資訊流的動態控制。在注意的神經生物學(Itti, L. 等人,編輯)中,第 11-17 頁,愛思唯爾
- ↑ György Buzsáki & Kenji Mizuseki:對數動力學大腦:偏斜分佈如何影響網路操作,圖 3 e、f:http://www.nature.com/nrn/journal/v15/n4/fig_tab/nrn3687_F3.html
- ↑ a b Wulfram Gerstner、Andreas K. Kreiter、Henry Markram 和 Andreas V. M. Herz:神經程式碼:放電率及其以外,http://www.pnas.org/content/94/24/12740.full
- ↑ Fred Rieke,Denis A. Baylor,視網膜錐體中暗噪聲的起源和功能影響,神經元,第26卷,第1期,2000年4月,第181-186頁,ISSN 0896-6273,http://dx.doi.org/10.1016/S0896-6273(00)81148-4
- ↑ H. B. Barlow:視網膜噪聲和絕對閾值,J Opt Soc Am。1956年8月;46(8):634-9
- ↑ Jonathan B. Demb,Peter Sterling,Michael A. Freed:視網膜神經節細胞如何防止突觸噪聲到達尖峰輸出,神經生理學雜誌,2004年10月1日出版,第92卷第4期,2510-2519
- ↑ David Attwell 和 Simon B. Laughlin:大腦灰質中訊號傳遞的能量預算
- ↑ https://en.oxforddictionaries.com/definition/phoneme
- ↑ a b c d Olshausen,B. A. & Field,D. J. 透過學習自然影像的稀疏程式碼,簡單細胞感受野屬性的出現。自然 381,607-609(1996)
- ↑ a b http://scikit-image.org/docs/dev/auto_examples/features_detection/plot_gabors_from_astronaut.html#sphx-glr-auto-examples-features-detection-plot_gabors_from_astronaut-py
- ↑ https://www.youtube.com/watch?v=8V7QVLTghac
- ↑ a b c Lewicki,M. 自然聲音的有效編碼自然神經科學。 5,356-363(2002)
- ↑ a b Barlow,H.B. 感測資訊轉換的潛在原則。在感覺交流(編輯:Rosenbluth,W.A.)217-234(麻省理工學院出版社,劍橋,1961)。
- ↑ Bell,A.J. & Sejnowski,T: J: 自然場景的“獨立成分”是邊緣過濾器。視覺研究。 37,3327-3338(1997)。
- ↑ a b Field,D. J. 感覺編碼的目標是什麼?神經計算。 6,559–601(1994)。
- ↑ Field,D. J. 自然影像統計與皮層細胞響應特性之間的關係。J. 光學學會。A 12,2379–2394(1987)。
- ↑ Daugman,J.G. 計算神經科學(編輯:Schwartz,E.)403-423(麻省理工學院出版社,劍橋,馬薩諸塞州,1990)。
- ↑ Hyvarinen,A.,Karhunen,J. & Oja,E. 獨立成分分析(Wiley,紐約,2001)
- ↑ Ehret,G. 在聽力研究進展。第10屆國際聽力研討會論文集(編輯:Manley,G. A.,Klump,G. M.,Koppl,C.,Fastl,H. & Oekinghaus,H.)387-400(世界科學出版社,倫敦,1995)。
- ↑ Evans,E. F. 耳蝸神經和耳蝸核。在感覺手冊生理學第5/2卷(編輯:Keidel,W. D. & Neff,W. D.)1–108(施普林格出版社,柏林,1975)。
- ↑ Rhode,W. S. & Smith,P. H. 貓聽覺神經纖維中音調脈衝響應模式的特徵與自發率的關係。聽力研究。 18,159–168(1985)。
- ↑ Evans,E. F. & Palmer,A. R. Exp. Brain Res. 40,115–118(1980)。
- ↑ Olshausen,B. A. & O'Connor K. N. 聲音的新視角自然神經科學。 5,292-295(2002)