統計學/簡介/統計學主題
今天大量的現代統計學來自20世紀初R.A. 費希爾的原創工作。雖然該領域有許多令人眼花繚亂的小學科,但有一些基本的基礎研究。
統計學初學者會根據他們的興趣對某個主題更感興趣。以下列出了一些統計學的主要分支。
我們這些純粹主義者和哲學家可能對純粹數學和世界的混亂現實之間的交集感興趣。對機率(尤其是機率分佈和誤差分佈)的嚴格研究可以幫助我們理解所有這些統計程式和方程式來自哪裡。雖然這種嚴謹性可能會阻礙心理學家(例如)有效地學習和使用統計學,但如果一個人想在該領域進行嚴肅的(即研究生水平)工作,它是必不可少的。
話雖如此,所有學生都應該對所有這些“統計技術和方程式”來自哪裡有一個基本的理解!如果我們能理解我們為什麼要使用某種工具,我們就會更善於使用它。挑戰在於將這些重要的想法傳達給非數學家,而不會讓學生的雙眼發呆。可以更進一步地爭論說,大量的學生實際上永遠不會使用t檢驗——他或她永遠不會將這些數字代入計算器並進行一些深奧的方程式運算——但透過對這種檢驗有一個基本的理解,他或她將能夠理解(並質疑)其他人發現的結果。
統計學中最被忽視的方面之一——也許也是統計學家喝酒的最大原因——是實驗設計。科學家經常將重要實驗的結果帶給統計學家,並尋求幫助進行分析,結果卻發現實驗設計中的缺陷導致結果毫無用處。統計學家經常遇到研究人員前來尋求幫助,希望我們能夠以某種方式神奇地“挽救”他們的實驗。
一位朋友給了我一個關於此的經典例子。在他的心理學課上,他被要求進行一項實驗並總結其結果。他決定研究音樂是否會對解決問題產生影響。他讓大量的受試者(包括我自己)先在安靜的環境中解決一個謎題,然後在聽古典音樂時解決,最後在聽搖滾樂時解決,最後在安靜的環境中解決。他測量了完成每項任務所需的時間,然後總結了結果。
我的朋友沒有考慮到的問題是,結果受到他未考慮到的學習效應的很大影響。第一個謎題總是需要更長的時間,因為受試者首先要學習如何解決謎題。到了第三次嘗試(在聽搖滾樂時),受試者已經非常擅長解決謎題了,因此實驗結果似乎表明,人們在聽搖滾樂時更擅長解決問題!
簡單地隨機化測試的順序就可以隔離“學習效應”,事實上,一個設計良好的實驗可以讓他測量每種音樂型別的影響和學習的影響。相反,他的結果毫無意義。仔細的實驗設計可以幫助儲存實驗的結果,事實上,一些設計可以節省大量的時間和金錢,最大限度地提高實驗的結果,有時還會產生研究人員從未考慮過的額外資訊!
與實驗設計類似,抽樣研究可以幫助我們找到最有效的統計設計,該設計可以最大限度地提高我們收集的資訊量,同時最小化工作量。然而,抽樣與實驗設計有很大的不同。在實驗室裡,我們可以設計實驗並從頭到尾控制它。但很多時候我們想研究實驗室之外的東西,對這些東西我們沒有多少控制權。
如果我們想測量某種有害甲蟲的數量及其對樹木的影響,我們將不得不進入森林,進行觀察,例如:測量不同地點甲蟲的數量,記錄它們侵染的樹木,測量這些樹木的健康狀況和大小等。
抽樣設計涉及到諸如“我需要進行多少測量?”或“我如何選擇測量地點?”等問題。如果沒有對這些問題進行規劃,研究人員可能會花費大量時間和金錢,結果卻發現他們實際上需要對十倍多的點進行取樣才能獲得有意義的結果,或者他們的一些取樣點位於甲蟲大量繁殖或樹木生長得更好的地貌(如沼澤地)中。
迴歸模型以線性方式將變數相互關聯。例如,如果您記錄了幾個人的身高和體重,並將它們繪製在一起,您會發現隨著身高的增加,體重也往往會增加。您可能還會發現,穿過資料的直線是您能找到的最佳近似關係的方式,儘管該直線會有一些可變性。這種線性模型可能是統計學家可用的最重要的工具。它們有著悠久的歷史,許多更詳細的理論方面是在 1970 年代發現的。擬合此類模型的常用方法是使用“最小二乘法”估計,儘管還有其他方法可用,並且通常更合適,尤其是在資料不符合正態分佈時。
但是,如果關係不是直線怎麼辦?如何將曲線擬合到資料中?這個問題有很多答案。一個簡單的解決方案是擬合二次關係,但實際上這種曲線往往不夠靈活。此外,如果您有很多變數,並且它們之間的關係不同且複雜怎麼辦?
現代迴歸方法旨在解決這些問題。廣義加性模型、投影追蹤迴歸、神經網路和 boosting 等方法允許解釋變數和響應變數之間存在非常一般化的關係,而現代計算能力使這些方法成為許多應用的實用選擇。
有些事物與其他事物不同。為什麼?也就是說,物件如何被歸類到各自的組中?考慮一家希望向客戶貸款的銀行。一些借錢的客戶將無法或不願償還,儘管大多數客戶將按期還款。在決定向哪些客戶貸款時,銀行如何將客戶歸類到這兩個組中?
這個問題的答案無疑受到許多因素的影響,包括客戶的收入、信用歷史、資產、已有的債務、年齡和職業。可能還有其他有影響力的、可衡量的特徵可用於預測特定個體是什麼樣的客戶。銀行應該如何決定哪些特徵很重要,以及應該如何將這些資訊整合到一條規則中,這條規則告訴它是否應該借錢?
這是一個分類問題的例子,統計分類是一個大型領域,包含線性判別分析、分類樹、神經網路和其他方法。
許多型別的研究都會檢視隨時間收集的資料,其中今天進行的觀察可能與明天進行的觀察存在某種相關性。金融(股票市場)和大氣科學是這兩個領域的突出例子。
我們都見過股票價格隨時間上下波動的折線圖。投資者有興趣預測哪些股票可能會繼續上漲(即何時買入)以及他們投資組合中的股票何時會下跌。突然出現的好訊息或簡單的“市場調整”很容易讓人誤以為是其中之一正在發生,從而錯誤地推斷出其中之一正在發生!
在氣象學中,科學家們關注著預測天氣的悠久科學。無論是試圖預測明天是否晴朗,還是確定我們是否正在經歷真正的氣候變化(即全球變暖),分析隨時間推移的天氣資料都非常重要。
假設一家制藥公司正在研究一種新藥,希望這種藥能讓人們活得更長(無論是透過治癒癌症,降低血壓或膽固醇,從而降低患心臟病的風險,還是透過其他機制)。該公司將招募患者參加臨床試驗,給一些患者服用藥物,給其他患者服用安慰劑,並跟蹤他們,直到他們積累了足夠的資料來回答新藥是否以及延長了多少壽命的問題。
此類資料給分析帶來了問題。有些患者比其他患者死得早,而且通常有些患者在臨床試驗結束之前不會死亡。顯然,活得更長的患者提供了關於藥物延長壽命能力(或無能力)的資訊資料。那麼應該如何分析這些資料呢?
生存分析提供了這個問題的答案,併為統計學家提供了必要的工具,以充分利用可用資料來正確解釋治療效果。
在實驗室中,我們可以測量植物結出的水果的重量或化學反應的溫度。這些資料點可以使用尺子或溫度計輕鬆測量,但是人的眼睛的顏色或她對西蘭花味道的態度呢?心理學家不能用尺子測量某人的憤怒程度,但他們可以詢問患者是否感到“非常憤怒”或“有點憤怒”或“無動於衷”。從這些實驗中,必須使用完全不同的方法來進行統計分析。分類分析在無數地方都有應用,從政治民意調查到人口普查資料的分析,再到遺傳學和醫學。
在美國,FDA 要求製藥公司進行嚴格的程式,稱為 臨床試驗 和統計分析,以確保公眾安全,然後才能允許銷售或使用新藥。事實上,製藥行業僱傭的統計學家比任何其他行業都多!