跳轉到內容

A-level 數學/OCR/S1/資料收集

來自華夏公益教科書,開放的書本,開放的世界

收集數值資料是統計學中非常重要的一個方面——在收集過程中發生的任何錯誤或引入的偏差都會反映在分析中,以及隨後基於這些資料得出的結論。如果資料收集不當,最好的情況是分析將是浪費時間,最壞的情況是誤導並造成嚴重後果。

如果你透過在你所在地區進行快速上門調查來收集有關電視觀看的資料,那麼你並沒有獲得有關你所在地區觀看習慣的資訊,你獲得的是有關你所在地區在家裡、開門並且回答你問題的人的觀看習慣的資訊。

統計資料解釋

統計學學生必須認識到的第一件事是,從數字中提取的結果可能會被錯誤地解釋,或者透過(濫用)選擇有意歪曲。為了避免錯誤,統計學家必須:a) 在選擇資訊時要非常小心,避免有偏見的結果。 b) 只做那些嚴格邏輯上的推論。 c) 注意“第三方”的相關性來源。

有偏見的資料來源

統計學家面臨的一個問題是,資訊來源可能有偏見。統計學家必須始終問一些問題,例如:a) 說的? b) 他為什麼這麼說? c) 他/她從這麼說中能得到什麼? d) 他/她如何知道? e) 他/她可能在撒謊嗎? 或者在猜測? f) 是否有其他解釋

我們將想要獲取資訊的群體(或專案)稱為總體。定義總體有時很棘手,有時可能不知道總體的全部範圍——例如,患有未診斷艾滋病的人數本質上是未知的。

如果總體相對較小且易於調查,我們可能會檢查總體中的每個專案。但是,通常情況下,總體要麼太大,要麼太昂貴,要麼難以調查每個專案,因此你可能不得不滿足於只檢查一部分,或者樣本,即總體的部分。

樣本框

[編輯 | 編輯原始碼]

從總體中可以從中選擇專案來形成樣本的列表稱為樣本框。

成本、準確性和樣本

[編輯 | 編輯原始碼]

儘管對整個總體進行調查似乎比依賴小樣本更好,但這往往並非如此。首先,這可能很昂貴,其成本可能超過結果的價值。有時,只調查總體的一小部分可以提高準確性,因為可以對一小部分樣本給予非常仔細的關注,而時間限制或熟練調查員的可用性不允許對整個總體進行調查。

收集方法

[編輯 | 編輯原始碼]

統計資料的收集通常透過以下一種或多種方法實現:a) 直接測量 b) 訪談 c) 從已釋出的統計資料中提取資料 d) 間接問卷 f) 徵集

直接觀察

[編輯 | 編輯原始碼]

這通常是最好的方法,因為它減少了錯誤資料的可能性,並且你可以控制記錄資料的質量,這也是最昂貴的方法之一。在某些情況下,這是不可能的——你無法觀察到人們如果有無限的錢會去哪裡度假。

訪談可以成為一種有效的技術,但前提是在如何設計問題和整理答案方面要格外小心。訪談的結果也可能具有誤導性,因為答覆者可能會 (a) 誤解問題,(b) 忘記一些資訊,(c) 為了提供正確的答案而撒謊,(d) 為了隱瞞真相而撒謊。訪談者記錄結果的標準不同也會造成扭曲。如果提問者問“你昨晚看了電視上的 XYZ 嗎——是或否”,並且得到了“部分看了”的回答,這算“是”還是“否”?

從已釋出統計資料中提取資料

[編輯 | 編輯原始碼]

由調查或直接為調查而收集的資料是原始資料,調查者應該充分了解這些資料的條件和侷限性。從其他調查收集的資訊中提取的資料是二手資料,通常調查者並不完全瞭解這些資料的條件和侷限性,但是這通常可能是唯一實用的資料來源(例如,過去 100 年煤炭產量的變化)。調查者對資料的認識固有的侷限性意味著,在使用已釋出資料來源中的資料時,要考慮原始資料收集的目的——特別是,該目的是否意味著如果你將資料用於自己的調查,可能會存在偏差。

間接問卷

[編輯 | 編輯原始碼]

間接問卷的典型代表是郵政問卷——它未經請求地到達,預計會完成並透過郵政返回,儘管現代版本也可能以電子方式到達。這通常是最不可取的資料收集方法,原因很簡單,因為只有很少的問卷會返回(15% 就算是不錯了),而那些返回的問卷可能顯示出很強的偏差,因為只有那些對主題有足夠強烈興趣的人,或者有誤導意圖的人才會返回問卷。大多數國家有一個例外——那就是法定人口普查,法律強制要求完成人口普查,儘管人口普查部門仍然需要進行核查訪談來核實資料。

徵求意見的典型例子是“意見箱”和“投訴箱”。收集到的資料幾乎毫無價值。不幸的是,這種方法被現代媒體廣泛使用,例如“傳送簡訊到這個號碼……”,然後將“結果”突出顯示。這種方法只能收集到那些對完成回覆足夠有強烈意見的人的資料,因為他們願意花費時間和金錢。

問卷的設計

[編輯 | 編輯原始碼]

無論何時從人們那裡獲取資訊,都必須仔細設計問題。問題應該:a) 易於理解。b) 清晰無歧義。c) 限制可能的答案(勾選預印的答案)。d) 簡潔扼要。e) 與受訪者相關。f) 與研究的目標、目的和目的相一致。g) 對受訪者有意義。h) 有明確的重點。i) 不暗示期望的答案。j) 按照邏輯順序排列。

抽樣方法

[編輯 | 編輯原始碼]

重新審視偏差

[編輯 | 編輯原始碼]

當我們從總體中抽取樣本時,通常不建議只取最容易得到的專案——我們尋求的是關於整個總體的的資訊,因此必須從整個總體中獲取資料,而不允許總體中的任何特定集合產生超過其應有的影響。不幸的是,我們必須避免的不僅僅是懷疑或已知的過度影響來源,我們還必須警惕 *未被懷疑* 的偏差來源。

隨機樣本

[編輯 | 編輯原始碼]

透過抽取隨機樣本,可以降低抽取 *未被懷疑* 偏差樣本的可能性。隨機樣本是指以這樣一種方式選擇的樣本,即總體中的每個專案都有相同的被選中的機會。

隨機樣本並非完美的樣本——隨機樣本(尤其是樣本量很小的情況下)並不一定能很好地反映總體。對居住在英國的人進行的隨機抽樣可能導致所有樣本都住在倫敦的人。隨機抽樣 *不能* 保證無偏差的樣本,它只是保證 *選擇方法無偏差* 。

配額抽樣

[編輯 | 編輯原始碼]

如果總體可以細分為不同的群體,那麼可以為每個群體設定配額,然後在群體中隨機選擇。

多階段抽樣

[編輯 | 編輯原始碼]

將總體細分為多個群體,然後隨機選擇其中一些群體進行下一階段。每個選定的群體都被細分為子群體,然後隨機選擇其中一些子群體進行下一階段。重複此過程,直到子群體的大小足夠小。這種方法通常用於限制調查中的出行,每個分組代表不同的地理區域。

系統抽樣

[編輯 | 編輯原始碼]

這是一種簡單的方法——如果需要從生產線上獲取 10% 的螺栓樣本,那麼就取出每 10 個生產出來的螺栓。這種方法通常用於生產線上。

如果生產線的運作方式存在某種系統性,導致螺栓生產每隔 10 個螺栓就出現週期性(機械師知道會進行測試),那麼結果就會有偏差。

分層抽樣

[編輯 | 編輯原始碼]

這是對配額抽樣的改進。如果已知每個不同群體在總體中的相對比例,那麼就可以為每個群體設定配額大小。如果此過程執行良好,那麼分層抽樣的結果通常顯示出比純隨機抽樣更少的偏差。

便利抽樣

[編輯 | 編輯原始碼]

這 *不是* 一種科學/統計抽樣方法,但不幸的是被公司使用。便利抽樣是指根據獲取響應的難易程度來選擇專案。例如,在特定雜貨店外面收集資料,然後對購物習慣做出普遍判斷。這 *不* 是真實的判斷,是有偏差的。你沒有收集關於總體購物習慣的資料,你收集的是在特定時間訪問特定商店並花時間填寫問卷的購物者資料。瞭解這些侷限性很重要。

使用的報告方法

[編輯 | 編輯原始碼]

無論使用何種方法收集資料,都必須記錄方法,並描述資料的侷限性。如果使用的是二手資料(即已出版資料中的資料),那麼必須完整記錄資料的來源。只有認真描述資料來源,才能理解分析結果及其侷限性。

華夏公益教科書