跳轉到內容

資料科學:入門/單變數分析

來自華夏公益教科書,開放書籍,開放世界


第 13 章:單變數分析



貢獻者注意(章節完成時刪除此部分)

[edit | edit source]

首先,請在華夏公益教科書註冊自己(並在下面列出自己),以便我們瞭解我們的共同貢獻者。此外,請遵守華夏公益教科書的編輯指南風格手冊政策和指南。謝謝。

其次,我們只需要每個章節中基本、清晰、直接的資訊。我們不是試圖做到詳盡或完整——本書的價值在於跨學科的簡單綜合。在其他地方可以詳細闡述特定主題的深度和複雜性。請在進行貢獻時把自己放在“初學者思維”中。此外,請對每個章節進行範圍界定,以便能夠在一小時的課堂時間內講授。如果章節需要超過一小時的授課時間,可能過於詳細。

  • 儘可能地,請按照維基百科和維基詞典中的定義使用術語和概念。這樣,學生可以參考相應的維基百科/維基詞典頁面來更深入地理解概念。

第三,這是一本跨學科的書籍。我們希望幫助人們將資料科學應用到所有領域。因此,我們需要各種簡單示例和簡單練習。

第四,請遵循每個章節的簡單結構:要點總結、討論、拓展閱讀、練習和參考資料。我們希望“拓展閱讀”部分連結到線上資源。參考文獻部分可以包含離線資源。要開始新的一頁,您應該使用來自 **此原型頁面** 的維基標記。

第五,與任何華夏公益教科書一樣,請隨時進行更正、擴充套件解釋和在必要時新增內容,即使它不是“您”的章節。使用討論頁面解釋可能存在爭議的更改。

第六,一些語法規則

  • 請 **加粗** 學生應該學習的關鍵術語和短語。
  • 使用“程式碼”標籤放置函式和程式碼片段的名稱:<code>lm()</code>
  • 使用內聯連結 [[ ]] 連線到維基百科、維基詞典、維基共享資源、華夏公益教科書和其他維基媒體基金會屬性。
  • 使用參考文獻 (<ref> </ref>) 連線到“外部”來源,包括線上和離線來源。
  • 如果您要新增影像或圖表,應該將它載入到 維基共享資源 中,而不是上傳到華夏公益教科書。
    • 如果合適,在上傳圖表時新增標籤 {{Created with R}}) 。
  • 如果使用的是不同於 **R** 標準包的包,則在每個函式後將包的名稱用括號和粗體表示:<code>MCMCprobit()</code> ('''MCMCpack''')
  • 您可以使用第三章 資料的定義 作為如何編寫章節的示例。

最後,非常感謝您志願加入我們的團隊!

章節總結

[edit | edit source]

正如在第 **** 章中所討論的,變數是我們從一組物件中測量的一組值。例如,我們可以測量一個班級中每個人的名字。他們實際收集的名字是該人在該變數(在這種情況下,我們稱之為“FirstName”)的值。當我們將所有“FirstName”的值放在一起作為一個組時,我們將該組值稱為 **分佈**。用資料科學的說法,我們會說“一個變數具有一組值的 **分佈**”。然而,在實踐中,許多資料科學家將分佈和變數這兩個詞互換使用,就好像它們是同義詞一樣。

**描述性統計** 是我們對分佈進行的計算,目的是簡單地描述變數。我們通常計算的兩個最常見的描述性統計量被稱為 **集中趨勢測度** 和 **離散度測度**。每個變數,因此每個分佈,都有一個數據型別——名義型、有序型、區間型或比率型。我們對每種資料型別都有不同的描述性統計量。下表列出了每種資料型別簡單描述性統計量的名稱。


簡單分佈的基本描述性統計量
測度 資料型別
名義型 有序型 區間型 比率型
集中趨勢 眾數 中位數 算術平均數 幾何平均數
離散度 變異係數 四分位間距 標準差 變異係數

一般來說,除了物理和化學之外,大多數資料科學專案要麼不使用比率資料,要麼將比率資料轉換為區間資料(有時稱為 **“對數正態”** 資料)。因此,資料科學家很少使用幾何平均數和變異係數。我們還必須注意不要將一種資料型別的描述性統計量錯誤地應用於另一種資料型別。這通常會導致對資料的誤解。例外情況是,我們可以謹慎地將“較低”資料型別的描述性統計量應用於“較高”資料型別。也就是說,我們可以適當地計算區間資料的中間值,但不能計算有序資料的算術平均數。

討論

[edit | edit source]

分佈

[edit | edit source]

正態分佈

其他常見分佈

名義變數

[edit | edit source]

集中趨勢

離散度

有序變數

[edit | edit source]

集中趨勢

離散度

從有序到“有序名義”

區間變數

[edit | edit source]

集中趨勢

離散度

從區間到有序

比率變數

[edit | edit source]

集中趨勢

離散度

從比率到區間

作業/練習

[edit | edit source]

拓展閱讀

[edit | edit source]

參考文獻

[edit | edit source]
[edit | edit source]

您可以自由地

  • **分享**——複製、分發、展示和表演作品(此維基中的頁面)
  • **混音**——改編或製作衍生作品

在以下條件下

  • **署名**——您必須將此作品歸因於華夏公益教科書。您不能暗示華夏公益教科書以任何方式認可您或您對本作品的使用。
  • **相同方式共享**——如果您改變、轉換或構建本作品,您只能在與本許可證相同或類似的許可證下分發由此產生的作品。
  • **放棄**——如果您獲得版權持有人的許可,可以放棄以上任何條件。
  • **公有領域**——如果作品或其任何部分根據適用法律屬於公有領域,則其狀態不受許可證的影響。
  • **其他權利**——許可證不會以任何方式影響以下任何權利
  • 您的合理使用權或其他適用的版權例外和限制;
  • 作者的道德權利;
  • 其他人可能對作品本身或作品的使用方式擁有的權利,例如公開權或隱私權。
  • **通知**——對於任何再利用或分發,您必須向他人清楚說明本作品的許可條款。最好的方法是連結到以下網頁。
http://creativecommons.org/licenses/by-nc-sa/3.0/
華夏公益教科書