跳至內容

資料科學:入門/探索性分析

來自華夏公益教科書,開放的書籍,開放的世界


第 25 章:探索性分析



貢獻者須知(章節完成後刪除此部分)

[編輯 | 編輯原始碼]

首先,請在華夏公益教科書註冊(並在下方列出您的使用者名稱),以便我們瞭解我們的共同貢獻者。此外,請遵守華夏公益教科書的編輯指南風格手冊政策和指南。謝謝。

其次,我們每個章節只需要基本、清晰、直觀的資料。我們不是試圖面面俱到或完整——這本書的價值在於跨學科的簡單整合。還有其他地方可以詳述某個主題的深度和複雜性。在做出貢獻時,請把自己放到“初學者的心態”。另外,請為每個章節確定範圍,以便在一個小時的課堂時間內講授。如果章節需要超過一個小時的授課時間,那可能過於詳細。

  • 在儘可能的情況下,請按照維基百科和維基詞典的定義使用術語和概念。這樣學生就可以參考相應的維基百科/維基詞典頁面,更深入地理解概念。

第三,這是一本跨學科的書。我們希望幫助人們將資料科學應用於所有領域。因此,我們需要各種各樣的簡單示例和簡單練習。

第四,請遵守每個章節的簡單結構:主要要點總結、討論、擴充套件閱讀、練習和參考資料。我們希望擴充套件閱讀部分連結到線上資源。參考資料部分可能包含離線資源。要開始新頁面,您應該使用來自此原型頁面的維基標記。

第五,與任何華夏公益教科書一樣,請隨時進行更正,擴充套件解釋,並在必要時新增內容,即使這不是“您”的章節。使用討論頁面解釋可能引起爭議的更改。

第六,一些語法規則

  • 請將學生應該學習的關鍵術語和短語加粗
  • 使用“程式碼”標籤將函式和程式碼片段的名稱放在程式碼塊中:<code>lm()</code>
  • 使用內聯連結 [[ ]] 連線到維基百科、維基詞典、維基共享資源、華夏公益教科書和其他維基媒體基金會屬性。
  • 使用參考文獻(<ref> </ref>) 連線到“外部”資源——包括線上和離線資源。
  • 如果您想新增影像或圖表,您應該將其載入到維基共享資源中,而不是上傳到華夏公益教科書中。
    • 如果適用,在上傳圖表時新增標籤{{Created with R}})。
  • 如果使用與R標準包不同的包,請將該包的名稱用粗體括號放在每個函式後:<code>MCMCprobit()</code> ('''MCMCpack''')
  • 您可以使用第三章資料的定義作為建立章節的示例。

最後,非常感謝您自願加入我們的團隊!

章節摘要

[編輯 | 編輯原始碼]

維基百科將探索性資料分析(EDA)定義為一種分析資料集以總結其主要特徵的方法,通常使用視覺化方法。在 EDA 過程中,資料科學家以開放的心態尋找資料中的模式,通常被稱為“深入挖掘資料”或“親自動手”。這種分析的結果可以導致新的假設的形成,以及進一步的資料收集活動。它還可以突出顯示資料中的異常值,這些異常值可以為資料清洗活動提供資訊,甚至證明資料中的系統性缺陷,這些缺陷可能使資料集無法使用。本章介紹了一些 EDA 中常用的技術。

美國數學家約翰·圖基創造了 EDA 這一術語,來描述分析資料的這種方法,目的是為了提出值得檢驗的假設,而不是驗證性資料分析,後者使用傳統的統計方法來檢驗假設。透過從資料中獲得洞察力,EDA 可以提出關於觀察到的現象原因的假設,並允許資料科學家評估他們的假設,並選擇合適的工具和技術進行進一步的分析。本質上,EDA 是一種以開放的心態尋找資料中模式的方法。或者正如約翰·圖基所說:“如果我們需要對探索性資料分析做出簡短的建議,我會建議它是態度、靈活性以及一些圖表紙”(儘管如今電子表格或 R 是更容易的選擇)。

有了強大的計算機和大量的統計檢驗,人們很容易直接深入資料集並開始分析資料,而不花時間提出正確的問題。統計學家弗朗西斯·安斯庫姆(恰巧是約翰·圖基的姐夫)提供了一個例子,他建立了 4 個數據集(現在被稱為安斯庫姆四重奏),這 4 個數據集的統計特性幾乎完全相同,但當繪製圖表時看起來卻大不相同。

由於 EDA 本身就是探索性的,因此在某種程度上它是一種反覆試驗的方法,並且哪些特定的分析被證明是有用的將取決於所調查的具體資料集。維基百科提供了一個有用的 EDA 圖形技術的列表,其中一些最常用的技術概述如下。

箱線圖顯示了一個數值資料序列的四分位數。這些四分位數之間的間隔表明資料的離散度和偏度。在同一圖表上繪製多個序列顯示了序列之間的差異,而沒有對它們的基本統計分佈做出任何假設。

直方圖是一種資料的分佈圖,它將每個資料點放置在一組大小相同的離散區間(或箱)中,並計算每個箱中資料點的總數。沒有“最佳”的箱數,因此資料科學家可能需要對每個資料集進行試驗,以找到最合適的箱寬。

散點圖用於探索兩個變數之間潛在的關係,方法是在水平 X 軸上繪製一個變數,在垂直 Y 軸上繪製另一個變數。這可以暗示兩個變數之間的相關性。從左下角到右上角傾斜的點模式表明正相關,而從左上角到右下角傾斜的點模式表明負相關。可以計算最佳擬合線(或“趨勢線”)來評估這種相關性。對於線性相關,這被稱為線性迴歸。


帕累託圖,以義大利經濟學家維爾弗雷多·帕累託命名,是一種結合了條形圖和折線圖的圖表,其中各個值以條形圖的形式按降序排列,併疊加了累積總數作為一條線。它用於識別資料中最重要的因素。


讓資料自己說話

[編輯 | 編輯原始碼]

作業/練習

[編輯 | 編輯原始碼]

擴充套件閱讀

[編輯 | 編輯原始碼]

參考資料

[編輯 | 編輯原始碼]
[編輯 | 編輯原始碼]

您有權

  • 共享——複製、分發、展示和表演作品(此維基中的頁面)
  • 混音——改編或製作衍生作品

在以下條件下

  • 署名——您必須將此作品歸功於華夏公益教科書。您不能暗示華夏公益教科書以任何方式認可您或您對本作品的使用。
  • 相同方式共享——如果您修改、轉換或基於此作品進行創作,您只能在與本許可相同或類似的許可下分發產生的作品。
  • 放棄 — 只要獲得版權持有人的許可,上述任何條件都可以被放棄。
  • 公有領域 — 當作品或其任何元素根據適用法律屬於公有領域時,此狀態不受許可證的影響。
  • 其他權利 — 許可證不會以任何方式影響以下任何權利
  • 您的公平交易或合理使用權利,或其他適用的版權例外和限制;
  • 作者的道德權利;
  • 其他人可能擁有的權利,無論是作品本身還是作品的使用方式,例如宣傳權或隱私權。
  • 通知 — 對於任何再利用或分發,您必須向他人清楚說明此作品的許可條款。 最好的方法是連結到以下網頁。
http://creativecommons.org/licenses/by-nc-sa/3.0/
華夏公益教科書