跳到內容

從資料到洞察

0% developed
來自華夏公益教科書


“...一本沒有插圖的書有什麼用,”愛麗絲想,“……”
本書教授將資料轉化為洞察力的原則

  1. 所有資料都代表以下三個維度之一:什麼 | 何時 | 何地?
  2. 每個資料圖表都可視化了維度之間的關係。
  3. 每種關係都有一個合適的視覺化。
  4. 視覺化應該有效地設計。
  5. 設計應該揭示洞察力。

一種常見的處理資料的方法是將它們置於層次結構的底部

  1. 智慧
  2. 知識
  3. 資訊
  4. 資料

較低級別的資料更“密集”且“有用性”更低,而較高級別的資料更“簡化”且抽象。本書主要處理最低三個級別:如何透過視覺化將資料轉化為關於世界如何運作的洞察力知識。

資料的維度

[編輯 | 編輯原始碼]

我們從可列舉(可計數)的離散物件的概念開始,這些物件可以產生單個數字,但可能以多種方式進行測量。在下文中,這些物件不會被分割成它們的組成部分。

如展品所示,基本的資料區別在於數字和可以稱為標籤的內容。

一個簡單的測量層次結構

最簡單的數字型別是整數 **I**,用於計數物件。當物件數量變大(例如 > 100)時,它們計數之間的差異變得相對較小,因此這些計數變得幾乎連續。真正的連續數字 - 實數 **R**1 - 可以取所有可能的數值。

標籤(有時稱為名義值或因子)用於區分物件,而不測量數量或任何特定的數值特徵,儘管標籤可以排序(“不喜歡”、“無所謂”、“喜歡”)。當數值較小時,計數可以充當標籤的角色(例如,單人家庭與 2 人家庭與 >2 人家庭)。組合學 研究瞭如何使用標籤將物件收集到各種“箱子”中,這些“箱子”的計數將在資料 描述 中討論。

瞭解所處理的測量型別非常重要,因為每種型別都有相應的描述性和關係性方法。讓我們檢查一些例子,在本例中來自環境分析領域。

  • 樣方 中的樹木數量是一個整數,範圍從 0 到無窮小。
  • 土壤樣品的重量是一個大於 0 的實數(儘管樣品可以有零重量,但問題在於它是否真的是樣品,如果是,是否因此存在無限多的此類樣品)。
  • 水樣中硝酸鹽的比例用百萬分之一表示,是一個實數,它是除法的結果。
  • 地震的震級是一個實數,但由於這些數字來自 長尾分佈,因此經常使用對數。
  • 土地覆蓋類別(“森林”、“水”、“耕地”、“城市”)是一個沒有數字的標籤,儘管每個類別都可以分配一個任意整數(例如 2、4、1、3)。有時整數用於標記測量值,但這些數字(有時在資料庫術語中稱為“鍵”)是識別符號,不能進一步描述;此外,它們應該是 資料矩陣 的第一列。

一種特別複雜型別的測量導致各種型別的類別,這需要複雜的分析技術。一個例子是將人類患者分配到患有 西尼羅河病毒 的患者類別,這可以被認為是一種解剖學狀況(腦炎)、一種由特定黃病毒感染或一系列症狀(發燒等)。測量問題 - 可靠性和保密性問題 - 是流行病學資料描述如此具有挑戰性的原因之一。探索實數處理中出現的一些不尋常的情況是有用的。

  • 零出現在沒有要計數的東西時(例如在沒有樹木的區域或沒有接收光子的影像畫素中),或者作為時間瞬間的長度(“2011-11-24 13:02:36.032 EST”,其中只顯示毫秒)。
  • 負數在例如空間資料中用於顯示海平面以下的高度或赤道以下的角度,在時間資料中用於顯示現在之前的年份,或在現象中用於顯示冰點以下的溫度。
  • 如果已知一些標準值,則“速率”最簡單地透過將測量值除以該標準值來計算,例如整個比例或百分比增長。
  • 最後,通常會出現不尋常的情況,其中測量值缺失(NA = 不可用或不適用)或無窮大(由零除產生的比率)。
各種數字的“行為”

描述資料至關重要的一點是瞭解它們的行為方式。展品顯示,基本連續統是在離散測量和連續測量之間;如果一個人跟蹤給定測量值在此連續統上的位置,則相應描述方法應該更加清晰。

雖然本書的大部分內容將討論如何視覺化不同型別測量值之間的關係,但分析的大部分內容都與簡單描述有關。我們從基本資料矩陣開始,如下表所示

ID       NOMINAL  REGULAR  INTEGER  RATIONAL
-------------------------------------------
Sigma       D        28       2       9.1
Gamma       B        29       7       9.7
Delta       B        30       6       7.6
Kappa       C        31       8       7.5
Mu          D        32       8       9.8
Beta        A        33       3       4.2
Pi          D        34       6       4.7
Epsilon     D        35       4       4.8
Tau         C        36       8       4.2
Lambda      C        37      10       2.0
Alpha       A        38       9       5.8
Rho         A        39       1       4.2

這是一個 12 x 5 的測量值矩陣,說明了迄今為止討論的關鍵區別

  • ID 變數是一個唯一的標籤,用於識別每一行。
  • NOMINAL 是一個不一定唯一的標籤,由單個字母字元組成,儘管它可以很容易地是一個數字或更長的名稱。
  • REGULAR 是一個以單位步長遞增的變數,因此它可以是索引(第二行可以是第 29 個“案例”)或時間戳(1928 年)。
  • INTEGER 是一個非唯一的整數,可能在計數某些東西。
  • RATIONAL 是一個實數,是一個真實的測量值,例如以節為單位的風速(請注意,“節每小時”是不正確的,除非您是指加速度!)。

上面的表格是資料視覺化起點的有用說明。它可能是你想要在報告中呈現的完整資料矩陣(儘管 12 行不是很多),在這種情況下,這是一個清晰的模板。或者矩陣可能只是完整資料集的樣本;並且——只要指示了這種取樣——該格式也很有用。最後,該表格可能正在呈現 12 個變數的統計資料。在所有這些情況下,我都提供了一個簡單且組織清晰的模板。顯然,瞭解資料並完全清楚資料矩陣代表什麼非常重要,特別是:行和列的數量、每列的作用以及它代表什麼。一旦清楚了這一點,你就可以轉向描述每列或每個變數的問題。每種測量方式都有其自己的一組描述性統計資料。描述性統計資料提供了有關資料的基本事實。它們分為兩種型別:非引數和引數,它們易於理解。

非引數統計

[編輯 | 編輯原始碼]

範圍是對資料的最簡單描述:獲得的最小值和最大值是多少?對於上面資料的第 3 列,很容易看出 REGULAR 的範圍是 28 到 39,INTEGER 的範圍是 1 到 10,RATIONAL FROM 的範圍是 2.0 到 9.8。對於更大的資料集,你可以對數字進行排序並選擇最小值和最大值。這些數字將有助於確定繪製的任何圖表的軸。下一個要檢查的統計資料是眾數,即列表中最常見的數值。在條形圖(最合適的視覺化)中,眾數將具有最長的條形。

上面的圖表是關於 NOMINAL 變數的最簡單的視覺描述。請注意,垂直軸顯示按頻率排序的數值,因此你可以很容易地看到哪些數值最常見,哪些數值最不常見。

其他主題

[編輯 | 編輯原始碼]
華夏公益教科書