資料科學：入門 / 多學科融合

資料科學：入門

第 02 章：多學科融合

資料科學：入門

歡迎來到資料科學
思考世界
分析和視覺化，第一部分
- 13: 單變數分析
- 14: 單變量表格和繪圖
設定問題
收集、攝取、轉換資料
分析和視覺化，第二部分
自由格式問題的湧現答案
- 24: 非理論性探究
- 25: 探索性分析
分析和視覺化，第三部分
展示結果
附錄

編輯此框

章節總結

這是對構成新資料科學學科的八個“父”學科的非常簡要的概述。它建議資料科學家在解決問題的過程中應該提出的一般性問題。

討論

如第一章所述，資料科學是多種學科的融合。我們還注意到，單個數據科學家很可能在一個或兩個學科中是專家，並在另外兩個或三個學科中精通。可能沒有一個人是所有這些學科的專家，而且極少有人精通 5 或 6 個學科。這意味著資料科學必須作為一個團隊來實踐，在整個團隊成員中，所有學科都具有專業知識和技能。讓我們探索這些學科是什麼以及它們如何為資料科學做出貢獻。

資料工程

(有關更深入的討論，請參閱第 6 章：像資料工程師一樣思考)

資料工程是資料科學中的資料部分。根據維基百科，資料工程涉及獲取、匯入、轉換、儲存和檢索資料。資料工程還包括向資料新增元資料。由於所有這些活動都相互關聯，資料工程師必須將這些問題作為一個整體來解決。例如，我們必須瞭解如何儲存和檢索資料，以便建立一個良好的匯入過程。資料工程需要深入瞭解要解決的資料科學問題的總體性質，以便制定一個強大的資料採集和管理計劃。計劃制定完成後，資料工程師就可以開始將其實施到資料管理系統中。

獲取 - 這是獲取資料的過程。資料科學家的資料工程師部分需要問問題：“資料來自哪裡？”、“資料是什麼樣的？”以及“我們的團隊如何訪問資料？”。資料可以來自許多地方，例如RSS 訂閱、感測器網路或預先存在的資料儲存庫。資料可以是數字、文字文件、影像或影片。資料可以由團隊收集或從供應商處購買。例如，如果我們要調查高速公路，我們可以將感測器安裝在一段高速公路上，用來測量汽車的速度。這些感測器會以文字訊息的形式向我們傳送資料，其中包括每輛經過感測器的汽車的日期、時間、車道和速度。

匯入 - 這是將資料從源頭匯入到用於分析的計算機系統中的過程。資料科學家的資料工程師部分需要問問題：“有多少資料正在匯入？”、“匯入速度有多快？”、“我們要把資料放在哪裡？”、“我們是否有足夠的磁碟空間來儲存資料？”以及“我需要以任何方式過濾匯入的資料嗎？”。資料以位元組為單位衡量。一個位元組大致相當於一個書面詞的一個字元。一個一頁的文件大約有 1,000 位元組或一個千位元組 (1K)。例如，如果我們要調查高速公路，我們可能會以每秒 10,000 位元組的速度接收汽車速度資料，持續一週的時間。一週有 604,800 秒。這意味著您將在一個星期內接收 6,048,000,000 位元組（6 吉位元組）的資料。沒問題。這可以放在一個拇指驅動器上。

轉換 - 這是將資料從收集時的格式轉換為分析所需的格式的過程。資料科學家的資料工程師部分需要問問題：“原始資料的格式是什麼？”以及“處理後的資料的格式需要是什麼？”。常見的原始資料格式是逗號分隔值 (CSV)，看起來像

20120709,135214,157,3,57.4
20120709,135523,13,2,62.1

例如，如果我們正在調查高速公路，我們可能會收到類似上面的示例的資料。第一行中的片段是：日期，2012 年 7 月 9 日；時間，下午 1:52.14；感測器，#157；車道，#3；速度，57.4 英里/小時。需要將資料從 CSV 格式轉換為類似於電子表格格式的格式，如下所示

年份	月份	日期	24 小時制	分鐘	秒	感測器編號	車道編號	英里/小時
2012	07	09	13	52	14	157	3	57.4
2012	07	09	13	55	23	13	2	62.1

瞭解各種“從”和“到”格式對於資料科學家來說非常重要。

元資料 - 維基百科說，元資料通常被稱為關於資料的資料。在上面的例子中，資料是英里/小時和車道。感測器是“地球表面資料收集位置”的代理，日期和時間是關於資料“收集時間”的資料。我們可以向我們的資料新增其他元資料，比如當時的天氣狀況和道路狀況。我們可以推匯出其他元資料，比如是否是工作日、假日或週末，以及是否是高峰時間。我們還可以新增元資料，指示哪些人在什麼條件下可以看到資料，比如“收集後 1 年內不得公開傳播”。元資料通常在匯入時和轉換時新增。

儲存 - 這是將資料放入資料管理系統中的過程。資料科學家的資料工程師部分需要問問題：“哪種系統最適合儲存我們的資料？”、“系統速度有多快？”、“該系統需要多少額外的空間？”。我們可以在檔案系統中將資料儲存在檔案中。檔案系統通常速度很快，但功能很少。我們可以將資料儲存在資料庫中。這些通常比檔案系統慢，但功能更多。例如，在我們的高速公路示例中，我們可能在 CSV 格式中有 6000 萬行資料。（每行 100 位元組，大約 6 吉位元組）。我們可以將其儲存在檔案系統中的一個大檔案中。讀取它很快，但在這種格式下，我們無法按時間和位置計算平均值。或者，我們可以將其儲存在資料庫中，這樣就可以輕鬆地按位置和時間計算平均值，儘管需要更多時間來讀取資料。

檢索 - 這是將資料取回的過程。資料科學家的資料工程師部分需要問問題：“我們將如何向資料提問？”以及“我們將如何顯示資料？”。我們可以透過查詢系統搜尋資料，也可以在表格中顯示資料的子集。例如，在我們的高速公路示例中，我們可能只想搜尋某個感測器在早高峰期間的測量結果。然後，我們可能想顯示一個表格，顯示每天早高峰的平均速度。在這種情況下，如果資料儲存在資料庫中會更好。因此，瞭解我們想要進行的分析型別將有助於我們制定資料儲存策略。

科學方法

(有關更深入的討論，請參閱第 9 章：像科學家一樣思考)

科學方法是資料科學中的科學部分。根據維基百科，科學方法是一個透過將推理原則應用於從可重複實驗中檢驗假設得出的經驗證據來獲取新知識的過程。當科學家聽到有人對某個事實做出斷言時，他們自然會想知道證據是什麼以及該證據的接受標準是什麼。

推理原則 - 邏輯推理有兩種一般形式：歸納和演繹。簡單地說，歸納推理從具體觀察得出一般性原則，而演繹推理從一般性原則得出具體結論。請考慮以下兩個示例

歸納論證

每個人都知道的所有生命形式都依賴於液態水才能生存。
因此，所有已知生命都依賴於液態水才能生存。

演繹論證

所有的人都是凡人。
蘇格拉底是人。
因此，蘇格拉底是凡人。

我們擁有的絕大多數科學知識都是基於歸納推理。資料科學家的科學家部分需要問問題：“特定結論背後的推理是什麼？”

經驗證據 - 經驗的證據是由觀察或實驗產生的資料。這與從邏輯論證中推匯出來的資料或神話和傳說傳播的結論形成對比。

最經典的例子是伽利略審判。當時（1633 年），天主教會堅持亞里士多德的邏輯論點，即地球是宇宙的中心。伽利略用他新發明的望遠鏡進行的觀察為哥白尼的斷言提供了證據，即地球圍繞太陽執行。審判的結果是，伽利略因異端罪被判處軟禁。2000 年，教皇約翰·保羅二世為對伽利略所犯的不公正行為道歉。

資料科學家的科學家部分需要問問題：“導致特定結論的證據是什麼？”

假設檢驗 - 此過程通常斷言兩個命題，其中只有一個可能是真的。科學家收集了支援和反對每個命題的經驗證據，然後接受其中一個並拒絕另一個。通常，其中一個假設被稱為零假設，另一個被稱為備擇假設。零假設通常是一個關於我們目前對宇宙執行方式的理解的命題。備擇假設是一個關於我們認為宇宙真正執行方式的命題。刑事審判是瞭解假設檢驗的經典類比。

只要被告人有罪沒有被證明，被告人就被視為無罪。檢察官試圖證明被告人的罪行。只有在有足夠的指控證據時，被告人才會被定罪。在程式開始時，有兩個假設： “被告人無罪”和“被告人有罪”。第一個被稱為零假設，暫時被接受。第二個被稱為備擇假設。這是試圖證明的假設。只有當錯誤定罪非常不可能時，才會拒絕無罪假設，因為人們不想定罪無辜的被告人。

資料科學家的科學家部分需要問一個問題， “為了得出特定結論，檢驗了哪些零假設和備擇假設？”

可重複的實驗 - 根據維基百科，實驗是一種有條理的試錯程式，其目的是驗證、證偽或建立假設的有效性。實驗的目標和規模差異很大，但始終依賴於可重複的程式和對結果的邏輯分析。一個孩子可能會進行基本的實驗來了解重力的本質，而科學家團隊可能會花費數年時間進行系統研究以推進對亞原子粒子的理解。

一個著名的例子是“斜面”或“球和斜坡實驗”。在這個實驗中，伽利略使用了一個斜面和幾個不同重量的鋼球。透過這種設計，伽利略能夠減慢下落運動並以相當的精度記錄鋼球通過樑上的某些標記的時間。伽利略反駁了亞里士多德關於重量影響物體下落速度的斷言。根據亞里士多德的落體理論，較重的鋼球將比較輕的鋼球先到達地面。伽利略的假設是這兩個球會同時到達地面。

資料科學家的科學家部分需要問一個問題， “關於這個實驗的方法和資料是否有足夠的資訊讓我可以複製它？”

數學

(有關更深入的討論，請參見第 10 章：像數學家一樣思考)

數學（連同統計學）是資料科學的大腦部分。根據維基百科，數學是對數量、結構、空間和變化的研究。當這些被用來解決實際問題時，它被稱為應用數學。

數量 - 我們只是意味著數字。資料科學家的數學家部分需要問一個問題， “我感興趣的東西將如何用數字表示？”以及“什麼型別的數字最適合表示我感興趣的東西？”數字可以是整數、分數、實數或複數。例如，如果我們要調查高速公路，我們可以用英里來測量高速公路的長度，用整數表示。我們還需要考慮將對數字執行的運算型別。我們使用算術來操作和表示資料中的數量。

結構 - 大多數數學物件集都表現出內部結構。資料科學家的數學家部分需要問一個問題， “我感興趣的東西有什麼樣的內部結構？”以及“哪組方程將揭示結構？”結構可以是像 $3,6,9,12,...$ 之類的恆定級數，或像 $Y=X+3$ 之類的簡單線性關係。例如，如果我們要調查高速公路，我們可能想知道限速的結構或車道寬度的結構。我們使用代數來操作和表示資料的結構。

空間 - 我們調查的東西通常與二維或三維空間有一些關係。以數學家的思維方式，資料科學家需要問一個問題， “我感興趣的東西是否有空間成分，無論是實際的還是理論的？”以及“我如何捕獲和表示該空間成分？”空間成分可以是緯度和經度，也可以是重要的表面。例如，如果我們要調查高速公路，我們可能想知道特定高速公路段的確切位置或高速公路表面的平滑程度。我們使用幾何和三角學來操作和表示資料的空間成分。

變化 - 我們調查的東西經常發生變化——可能隨時間變化或隨距離變化。資料科學家的數學家部分需要問一個問題， “我感興趣的東西之間的關係是否會發生變化？”以及“我將如何描述這種變化的關係？”變化可以是......例如，如果我們正在調查高速公路，道路彎道的銳利程度可能會隨著該部分高速公路的限速而變化，或者瀝青的深度可能會改變每小時可以安全行駛的汽車數量。我們使用微積分來操作和表示資料中發生變化的關係。

應用數學 - 這是具有專業知識的數學。一般來說，這是資料科學家所從事的數學型別。

統計

(有關更深入的討論，請參見第 11 章：像統計學家一樣思考)

統計學（連同數學）是資料科學的大腦部分。維基百科指出，統計學 是對資料的收集、組織、分析和解釋的研究。它涉及探索資料、發現模式和關係、建立模型以及對未來進行推斷的方法。統計學是與資料科學有最直接血統的學科。統計學家負責瞭解將對資料進行的分析，以便能夠適當地收集和組織資料。

收集 - 統計學家與資料工程師合作，確保資料生成和收集以允許得出有效結論的方式進行。統計學家建立了研究設計，包括（如果適用）實驗設計，該設計控制資料的收集。資料科學家的統計學家部分需要問一個問題， “將使用什麼研究程式來生成資料？”

組織 - 統計學家與資料工程師合作，確保資料的編碼和歸檔，以便資訊不僅可以保留並用於專案內部分析，還可以用於與他人共享。統計學家負責建立資料字典，該字典與資料庫無關。資料工程師會根據統計學家編制的資料字典建立資料庫模式，該模式與資料庫相關。資料字典指定變數、有效值和資料的格式。資料庫模式描述了特定的資料庫管理系統如何儲存資料。資料科學家的統計學家部分需要問一個問題， “資料是否以這樣的方式儲存，以便於將要進行的統計分析？”

分析 - 統計學家與數學家合作，總結、聚合、關聯和建立資料模型。統計學家是使用描述性和推斷性統計分析資料的專家。這包括建立資料的摘要（例如平均值）以及測試差異（這個平均值是否明顯高於那個平均值）。資料科學家的統計學家部分需要問一個問題， “根據資料，應該使用哪些描述性和推斷性統計量來檢驗假設？”

解釋 - 統計學家與主題專家和視覺藝術家合作，以對那些需要使用結果的人來說易於理解的方式報告結果和彙總資料（表格和圖表）。資料科學家的統計學家部分需要問一個問題， “誰將獲得結果，他們想了解什麼？”

高階計算

(有關更深入的討論，請參見第 08 章：像程式設計師一樣思考)

高階計算是資料科學的重中之重。根據維基百科，計算機程式設計（通常簡稱為程式設計或編碼）是設計、編寫、測試、除錯和維護計算機程式原始碼的過程。此原始碼是用一種或多種程式語言編寫的。程式設計的目的是建立一組計算機用來執行特定操作或表現出所需行為的指令。編寫原始碼的過程通常需要在許多不同學科方面的專業知識，包括對應用領域的瞭解、專門的演算法和形式邏輯。

軟體設計 - 根據維基百科，軟體設計是一個將軟體的用途和規格轉化為計劃的過程，該計劃包括低階元件和演算法實現，並具有總體架構檢視。程式設計師透過編寫原始碼來實現軟體設計。軟體設計師經常使用建模語言，例如UML來建立設計。例如，

作為資料科學家的一部分，程式設計師需要問自己：“為了解決我們正在處理的問題，我們需要哪些元件和演算法？”

程式語言 - 根據維基百科，程式語言是一種人工語言，旨在與計算機溝通指令。程式語言用於建立程式，這些程式控制計算機和外部裝置（如印表機、磁碟驅動器和機器人）的行為。程式也精確地表達演算法。程式語言可以被認為是“低階”的，例如“組合語言”，它們與內置於硬體中央處理單元 (CPU) 的機器語言功能幾乎一一對應。更常見的是，程式設計師使用“高階”語言，例如 Java、Python 和 C++，這些語言將許多機器級功能聚合在一起，形成人類級功能，例如“讀取資料”和“列印”。作為資料科學家的一部分，程式設計師需要問自己：“我應該使用哪種程式語言來解決手頭的難題？”

原始碼 - 根據維基百科，原始碼是指使用某種人類可讀的計算機語言（通常以文字形式）編寫的任何計算機指令集合（帶註釋）。執行時，原始碼被翻譯成機器程式碼，計算機可以直接讀取並執行。程式設計師經常使用整合開發環境 (IDE)，它允許他們輸入、除錯和執行原始碼。以下是傳統的“Hello World”程式的原始碼示例，分別用Java和Python編寫

/**
 * Traditional "Hello World" program In Java
 */

class HelloWorldApp {
 public static void main(String[] args) {
 System.out.println("Hello World!"); // Display the string.
 }
}

#
# Traditional "Hello World" program in Python 2.x
#

print "Hello World!"

作為資料科學家的一部分，程式設計師需要問自己：“已經存在哪些原始碼可以幫助解決我們正在處理的問題？”

視覺化

(有關更深入的討論，請參見第 11 章：像視覺藝術家一樣思考)

視覺化是資料科學的漂亮面孔。根據維基百科，資訊視覺化是對抽象資料的視覺表示，以增強人類認知。抽象資料包括數值和非數值資料，例如文字和地理資訊。該維基百科還將圖形設計描述為為了向目標受眾傳達特定資訊而進行的創造性過程。良好的視覺化是創造性過程的結果，該過程構成資料的抽象形式，使其具有資訊量且美觀有趣。

創造性過程 - 維基百科將創造力定義為產生既原創又值得的東西的過程。這個過程包括發散性思維，它涉及為一個問題產生多個答案；概念融合，其中解決方案源於兩個截然不同的參考框架的交叉點；以及磨練，其中可接受的解決方案從對解決方案的許多連續不可接受版本進行迭代中產生。資料科學家的視覺藝術家部分需要問：“我們可以用幾種不同的方式來顯示這些資料？”以及“我們如何在接下來的幾次迭代中改進這種視覺化？”

資料抽象 - 維基百科將資料抽象定義為以有意義的方式處理資料位。這意味著我們不想視覺化所有原始資料，而是需要視覺化對資料的操作（聚合、彙總、相關性、預測），這些操作在我們試圖解決的問題的背景下是有意義的。資料科學家的視覺藝術家部分需要問：“我們如何簡化資料的內容以便它可以被有意義地視覺化？”

資訊有趣 - 根據維基詞典，人類會關注有趣或有吸引力的事物。吸引人或美麗的事物對感官來說是令人愉悅的。雖然美在眼見者心中，但有一些或多或少公認的美學原理，例如對稱和和諧。驚訝在和諧的背景下，對人類來說尤其有趣。資料科學家的視覺藝術家部分需要問：“我們如何視覺化資料的內容，使其具有令人愉悅的驚喜感？”

考慮以下圖形。它是 2005 年初網際網路的部分地圖。每條線代表兩個IP 地址。請注意，它只抽象了關於網際網路的一小部分資料。它顯然經歷了許多迭代才最終確定瞭如此和諧的配色方案。它整體上是對稱的，細節上有一些驚喜（明亮的“星星”）。最後，它在理解全球資訊網的背景下是有意義的。

駭客思維

(有關更深入的討論，請參見第 06 章：像駭客一樣思考)

駭客是資料科學的秘訣。根據維基百科，駭客是指修改自己的計算機系統，包括構建、重建、修改和建立軟體、電子硬體或外設，以使其變得更好、更快、增加功能，或使其做一些它本來不打算做的事情。對於資料科學家來說，駭客不僅僅限於計算機系統，而是擴充套件到解決資料問題的整個過程。將其視為一種高階的自己動手 (DIY)工作方式。

資料科學駭客涉及發明新的模型，探索新的資料結構，以及以非傳統的方式混合 8 個母學科。駭客需要大膽、創造力、願景和毅力。以下舉兩個例子。（儘管它們涉及硬體，但之所以提出它們是因為它們可以在幾句話內就能被理解。第四章中提供了更復雜的資料科學示例。）

一個著名的例子是史蒂夫·沃茲尼亞克手工製作的蘋果 I計算機。它是由從惠普的垃圾箱中收集的零件和電子剩餘供應商店購買的零件組裝而成。沃茲尼亞克想免費提供這些計劃，但他的合夥人史蒂夫·喬布斯說服了他應該出售現成的機器。正如人們常說的，接下來的故事就是歷史了。
另一個例子是卡內基梅隆大學的網際網路可樂機。^[1] 在全球資訊網出現之前，網際網路的早期，卡內基梅隆大學的學生將他們當地的可樂機連線到了網際網路並對其進行了改造。學生可以檢視哪些內部分配柱最近被裝滿，這樣他們就可以確保買到冷的可樂，而不是熱的可樂。這很重要，因為這臺機器每 12 分鐘售出一瓶可樂，每天要補充幾次。

資料科學家通常需要資料等效的駭客空間，他們可以在那裡聚在一起，互相幫助發明新的分析解決方案。資料科學家的駭客部分需要問自己：“我們需要修改我們的工具或建立新的東西來解決我們的問題嗎？”以及“我們如何結合我們不同的學科，得出有見地的結論？”

領域專業知識

(有關更深入的討論，請參見第 12 章：像領域專家一樣思考)

領域專業知識是將資料科學聯絡在一起的粘合劑。根據維基百科，學科或領域專業知識是指在特定領域或主題方面具有專業知識或技能。口頭提及主題專家有時會拼出縮寫詞“SME”（“S-M-E”），有時則將其發音為一個詞（“smee”）。任何知識領域都可以成為資料科學調查的物件，包括（但不限於）醫學、政治、物理和生物科學、營銷、資訊安全、人口統計，甚至文學。每個資料科學團隊都必須至少包括一個對所解決問題具有學科專業知識的人。

領域專業知識包括瞭解哪些問題很重要，以及瞭解什麼是充分的答案。領域專家瞭解他們的知識的客戶想要了解什麼，以及如何最好地包裝知識，以便他們的客戶能夠輕鬆地吸收。例如，

Twitter 的資料科學家埃德溫·陳計算並可視化了將軟飲料稱為“蘇打水”、“汽水”和“可樂”的推文的地理分佈。^[2] 僅僅觀察到中西部使用“汽水”，東北部使用“蘇打水”很有趣，但缺乏解釋。為了理解為什麼存在這些地理劃分，我們需要諮詢社會學、語言學、美國曆史，甚至人類學領域的專家——他們可能對資料科學一無所知。您認為為什麼會出現這些地理語言差異？

Nate Silver 是一位統計學家，也是美國政治領域的專家。他的部落格^[3] 定期結合資料和對資料的解釋。在他的文章“Romney 如何透過選擇競選搭檔影響選舉結果”^[4] 中，他不僅告訴我們根據他的數學模型存在哪些差異，還解釋了這些結果是如何產生的。

資料科學領域專家的職責需要問：“我們解決的問題的重要性是什麼？”以及“我們的客戶應該瞭解我們發現的哪些具體內容？”

作業/練習

熟悉 R 程式設計環境。組成 3 到 4 人的團隊，來自同一個班級。作為一個團隊一起參加學習會議，處理以下內容。看看你是否可以向彼此解釋你的操作。互相幫助理解發生了什麼。你可能需要嘗試幾種方法才能使操作正確。這是正常的。你們中的一些人比其他人更“快”。請互相幫助，讓你們都“理解”。

列印一份 Google R 樣式指南的副本並仔細閱讀。^[5] 現在，指南的大部分內容可能不太清楚，但隨著我們深入學習這本書，它會變得越來越清晰。保留列印好的副本以備將來參考。
在網上搜索“R 入門”、“R 教程”、“R 基礎”和“R 命令列表”。選擇 4 到 5 個這樣的網站來學習。嘗試完成每個網站的前幾個示例。許多入門教程速度過快或假設讀者有太多先驗知識，所以如果變得過於複雜，只需嘗試另一個網站。
嘗試以下命令

library(help="utils")
library(help="stats")
library(help="datasets")
library(help="graphics")
demo()
demo(graphics)
demo(persp)

編寫一個簡短的 5 到 7 行程式，使其能夠執行並儲存。確保在註釋部分包含所有貢獻者的姓名。
列出團隊學習使用的網站，並指出哪個最有用。
列出團隊在學習會議結束時留下的前 10 個未解答的問題。

進一步閱讀

Jeffrey M. Stanton (2012 年 5 月 20 日). "資料科學入門". 錫拉丘茲大學資訊研究學院. Retrieved 2012 年 8 月 8 日..

參考文獻

↑ CS Department Coke Machine (2005 年 2 月 14 日). "網際網路上唯一的'可口可樂'自動售貨機". 卡內基梅隆大學計算機科學. Retrieved 2012 年 8 月 8 日..
↑ Edwin Chen (2012 年 7 月 6 日). "蘇打水與汽水：Twitter 視角". Edwin Chen 的部落格. Retrieved 2012 年 8 月 8 日..
↑ Nate Silver. "FiveThirtyEight". 部落格. 紐約時報. Retrieved 2012 年 8 月 8 日..
↑ Nate Silver (2012 年 8 月 8 日). "Romney 如何透過選擇競選搭檔影響選舉結果". 部落格. 紐約時報. Retrieved 2012 年 8 月 8 日..
↑ "R 樣式指南". Google, Inc. Retrieved 2012 年 7 月 6 日..

版權宣告

您可以自由地

分享 — 複製、分發、展示和表演作品（本維基頁面）。
混音 — 改編或製作衍生作品。

在以下條件下

署名 — 您必須將此作品歸因於華夏公益教科書。您不得暗示華夏公益教科書以任何方式認可您或您對本作品的使用。
相同方式共享 — 如果您更改、轉換或以本作品為基礎，您只能在與本許可相同或相似的許可下分發由此產生的作品。
放棄 — 如果您獲得版權持有者的許可，上述任何條件都可以放棄。
公共領域 — 如果本作品或其任何部分根據適用法律屬於公共領域，其狀態不受本許可的影響。
其他權利 — 本許可不會以任何方式影響以下任何權利

您的合理使用權或其他適用版權例外和限制；
作者的署名權；
他人可能對作品本身或作品使用方式擁有的權利，例如公開權或隱私權。

注意 — 對於任何再利用或分發，您必須向他人明確說明此作品的許可條款。最好的方法是連結到以下網頁。

http://creativecommons.org/licenses/by-nc-sa/3.0/

[1] CS Department Coke Machine (2005 年 2 月 14 日). "網際網路上唯一的'可口可樂'自動售貨機". 卡內基梅隆大學計算機科學. Retrieved 2012 年 8 月 8 日..

[2] Edwin Chen (2012 年 7 月 6 日). "蘇打水與汽水：Twitter 視角". Edwin Chen 的部落格. Retrieved 2012 年 8 月 8 日..

[3] Nate Silver. "FiveThirtyEight". 部落格. 紐約時報. Retrieved 2012 年 8 月 8 日..

[4] Nate Silver (2012 年 8 月 8 日). "Romney 如何透過選擇競選搭檔影響選舉結果". 部落格. 紐約時報. Retrieved 2012 年 8 月 8 日..

[5] "R 樣式指南". Google, Inc. Retrieved 2012 年 7 月 6 日..

[1]

[2]

[3]

[4]

[5]