資料科學:入門/資料科學的歷史

章節總結
[edit | edit source]資料科學是由許多現有學科組成的。這是一個年輕的職業和學術學科。這個詞最初是在 2001 年提出的。自 2010 年以來,它的普及率激增,這是由企業和政府需要分析其收集的大資料所推動的。谷歌搜尋引擎是資料科學力量的經典例子。
資料科學 是一門學科,它融合了不同程度的 資料工程、科學方法、數學、統計學、高階計算、視覺化、駭客思維 以及 領域專業知識。資料科學從業人員被稱為資料科學家。資料科學家解決複雜的 資料 分析問題。
術語“資料科學”是在 21 世紀初創造的。它歸因於 William S. Cleveland [1],他在 2001 年寫了“資料科學:擴充套件統計學領域技術領域的行動計劃”。[2] 大約一年後,國際科學理事會:科學與技術資料委員會[3] 開始出版 CODATA 資料科學雜誌,從 2002 年 4 月開始。[4] 此後不久,2003 年 1 月,哥倫比亞大學開始出版《資料科學雜誌》。[5]
在 1998 年至 2000 年的 “網際網路泡沫” 期間,硬碟變得非常便宜。因此,公司和政府開始大量購買它們。帕金森定律的一個推論是,資料總是會擴充套件到填滿可用的磁碟空間。磁碟資料相互作用是購買更多磁碟和積累更多資料之間的正指數迴圈。這種迴圈產生了大資料。 大資料是指 資料集 如此之大且複雜,以至於使用常規資料庫管理工具處理它們變得很笨拙。
一旦獲取了大資料,除了儲存它之外,我們還必須做些什麼。我們需要大型計算架構。谷歌、雅虎和亞馬遜等公司發明了新的計算架構,我們稱之為雲計算。 雲計算中最重要的一項發明被稱為MapReduce。 MapReduce 已被編入稱為Hadoop 的軟體中。我們使用 Hadoop 在雲中對大資料進行大型計算。
- 正常的計算正規化是我們將資料移動到演算法中。例如,我們從硬碟驅動器中讀取資料並將其載入到電子表格程式中進行處理。MapReduce 計算正規化恰恰相反。資料如此之大,以至於我們無法將所有資料都放到演算法中。相反,我們將演算法的許多副本推送到資料中。
事實證明,Hadoop 很難做。它需要高階的計算機科學能力。這為建立在 Hadoop 之上執行的具有更簡單介面的分析工具開闢了市場。這類工具被稱為“大規模分析工具”,即用於分析海量資料的工具。例如,“推薦系統”、“機器學習”和“複雜事件處理”。這些工具雖然與 Hadoop 具有更簡單的介面,但具有複雜的數學基礎,這也需要專業知識。
因此,隨著大規模分析工具的出現,我們需要有人來理解這些工具,並實際進行大資料分析。我們稱這些人為“資料科學家”。這些人能夠發掘出前所未有的新分析見解,這在小資料世界中是不可能實現的。分析大資料解決的問題規模如此之大,以至於任何一個人都無法完成所有需要的資料處理和分析綜合。因此,資料科學最好在團隊中實踐。
In sum, cheap disks --> big data --> cloud computing --> mass analytic tools -->
--> data scientists --> data science teams --> new analytic insights.
Mike Loukides [6],O'Reilly Media 的內容策略副總裁,透過他在 2010 年發表的文章“什麼是資料科學?”[7] 將資料科學帶入了主流詞彙。在過去幾年中,資料科學與 大資料 分析越來越相關。在 2000 年代中期,LinkedIn 的 DJ Patil 和 Facebook 的 Jeff Hammerbacher 建立了專門的資料科學團隊,以從他們網站上生成的海量資料中獲取商業價值。[8][9]
現在有幾個專門針對大資料和資料科學的持續會議,例如 O'Reilly 的 Strata 會議 [10] 和 Greenplum 的資料科學峰會。[11]
職位名稱也變得非常流行。在一個使用頻率很高的招聘網站上,“資料科學家”的職位釋出數量從 2010 年 1 月到 2012 年 7 月增長了 10000% 以上。[12]
幾所大學已開始提供資料科學研究生課程,例如北卡羅來納州立大學的先進分析研究所[13]、西北大學的麥考密克工程學院[14] 以及現已停辦的伊利諾伊大學為期 6 周的暑期課程。[15]
最近湧現了一些專業組織。Data Science Central[16] 和 Kaggle [17] 就是兩個例子。Kaggle 是一個有趣的案例。他們透過眾包方式為難題尋找資料科學解決方案。例如,一家公司會在 Kaggle 上釋出一個難題。來自世界各地的資料科學家會註冊 Kaggle,然後相互競爭以找到最佳解決方案。然後該公司會為最佳解決方案付費。有超過 30000 名資料科學家註冊了 Kaggle。
在 1990 年代中期到後期,AltaVista 是網際網路上最受歡迎的搜尋引擎。它會發送“爬蟲”來提取網路上所有頁面的文字。爬蟲將文字帶回 AltaVista。AltaVista 會對所有文字進行索引。因此,當用戶搜尋某個關鍵詞時,AltaVista 就可以找到包含該詞的網頁。然後,AltaVista 會將結果呈現為一個網頁排序列表,最常出現該詞的網頁排在最上面。這是一個直接的計算機科學解決方案,儘管當時他們解決了一些非常困難的擴充套件問題。
在 1990 年代後期,Google 的創始人發明了一種不同的搜尋方式。他們將數學、統計學、資料工程、高階計算和駭客精神結合起來,創造了一個取代 AltaVista 的搜尋引擎。該演算法被稱為 PageRank。PageRank 不僅檢視頁面上的文字,還檢視 超連結。PageRank 假設,入站超連結是表明其他人認為當前頁面足夠重要,值得在其頁面上新增連結的指標。因此,擁有最多超連結的頁面最終會出現在搜尋結果列表的頂部。除了內容之外,PageRank 還捕捉了人類對網頁的認知。
Google 不僅爬取了網頁,還吸收了網頁。這就是大資料。然後他們必須在大資料中計算 PageRank 演算法。這需要大量的計算資源。然後他們必須為每個人提供快速搜尋和搜尋結果。Google 搜尋是資料科學的勝利(儘管它在開始時沒有被稱為資料科學)。
(本節內容從 R 程式設計 Wikibook 關於設定的章節 匯入,然後進行了修改。)
兩人或三人一組。將 R 程式語言下載並安裝到您的計算機上。互相幫助讓 R 執行起來。
- 訪問 R 網站:http://www.r-project.org/
- 點選 CRAN 映象連結
- 點選 Linux、Mac OSX 或 Windows 連結
在基於 Debian 的 GNU/Linux 發行版(例如 Ubuntu 或 Debian 本身)上安裝 R 很簡單,只需在終端中輸入 sudo aptitude install r-base 或 sudo apt-get install r-base,或者使用您喜歡的軟體包管理器(例如 Synaptic)安裝 r-base 軟體包。
還有許多擴充套件 R 以實現不同目的的軟體包。它們的名字都以 r- 開頭。仔細看一下 r-recommended 軟體包。它是一個元軟體包,依賴於一組軟體包,這些軟體包由上游 R 核心團隊推薦,作為完整 R 發行版的一部分。您可以僅透過安裝此軟體包來安裝 R,因為它依賴於 r-base。
使用 apt-get 安裝(Debian、Ubuntu 和所有基於 Debian 的 Linux 發行版)
sudo apt-get install r-base sudo apt-get install r-recommended
使用 aptitude 安裝(Debian、Ubuntu 和所有基於 Debian 的 Linux 發行版)
sudo aptitude install r-base sudo aptitude install r-recommended
安裝:下載磁碟映象(dmg 檔案)並安裝 R。
Mac 的預設圖形使用者介面比 Windows 的好得多。它包括
- 一個數據框管理器,
- 所有命令的歷史記錄,
- 一個支援語法高亮的程式編輯器。
(本節內容從 Wikiversity 專案匯入:"如何使用 R" 課程關於安裝的章節。)
要在 Windows 作業系統下安裝 R,您必須從網上下載二進位制檔案。首先訪問 R-Project 網站(如上所述),然後在左側面板的下載部分下點選 CRAN,並選擇一個映象站點,從中您可以下載所需的內容。最佳選擇是選擇距離您實際地理位置最近的映象,但其他映象也應該可以正常工作。然後點選 Windows,並在子目錄中點選 base。Windows 二進位制檔案是 exe 檔案,形式為 R-x.x.x-win32.exe,其中 x 表示程式的實際版本。無論版本如何,安裝步驟都相同。
與 Windows 一樣,如果您只是不斷點選 下一步 按鈕,您就可以毫無問題地安裝程式。但是,您可以更改一些內容。
- 在歡迎螢幕上點選 下一步。
- 閱讀或只是注意到 GNU 許可證,然後點選 下一步。
- 選擇 R 應該安裝到的位置。如果您不喜歡硬碟上的特定位置,則預設選擇就足夠了。
- 在下一步中,您可以指定要安裝 R 的哪些部分。選項包括:使用者安裝、最小使用者安裝、完全安裝和自定義安裝。注意選擇面板下的所需空間(在 20 到 66 MB 之間)。如果您是 R 的初學者,請選擇預設的 使用者安裝。
- 在此步驟中,您可以選擇兩種方式。如果您接受預設設定,您將在安裝過程中跳過 3 個“額外”步驟(見下文)。
- 您可以指定 開始選單 資料夾。
- 在下一步中,您可以選擇快捷方式選項(桌面圖示和/或快速啟動圖示)並指定登錄檔項。
透過這些步驟,您可以自定義 R 圖形使用者介面。
- 您可以選擇使用覆蓋整個螢幕的 R 圖形使用者介面(MDI)還是使用較小的視窗(SDI)。
- 您可以選擇 R 中幫助螢幕的顯示方式。您會經常使用幫助,因此這可能是一個重要的決定。您可以根據自己的喜好選擇樣式。請注意,無論您選擇什麼樣式,幫助檔案的內容都是一樣的。這裡您只是指定該特定視窗的外觀。
- 在下一步中,您可以指定是否要使用 internet2.dll。如果您是初學者,請選擇 標準 選項。
如果您想將 R 安裝到您的 USB 快閃記憶體盤上,請訪問 行動式 R[18] 網站。如果您沒有計算機的管理員許可權,這將非常有用。基本安裝需要大約 115 MB,但如果您想安裝附加軟體包,可能需要更多空間。
- Davenport,Thomas H.;Patil,D.J. (2012)。"資料科學家:21 世紀最性感的職業"。哈佛商業評論。2012 年 10 月:70–76. 檢索於 2012 年 10 月 13 日.
- Mike Loukides (2010 年 6 月)。"什麼是資料科學?"。O'Reilly Media,inc. 檢索於 2012 年 7 月 7 日.
- DJ Patil (2011 年 9 月 16 日)。"組建資料科學團隊"。O’Reilly Media,Inc. 檢索於 2012 年 7 月 7 日.
- Longhow Lam (2010 年 10 月 28 日)。"R 入門" (PDF). PDF. 綜合 R 檔案網路 (CRAN). 檢索於 2012 年 7 月 14 日.
- Emmanuel Paradis (2005 年 9 月 12 日)。"R 入門" (PDF). PDF. 綜合 R 檔案網路 (CRAN). 檢索於 2012 年 7 月 14 日.
- Code School。"嘗試 R"。線上課程。O'Reilly. 檢索於 2013 年 5 月 16 日.
- ↑ William S. Cleveland. "教師頁面". 檢索於 2012 年 7 月 6 日.
- ↑ Cleveland, W. S. (2001). "資料科學:擴充套件統計學領域技術領域的行動計劃". 國際統計評論 / 國際統計評論. 69 (1).
- ↑ "科學國際委員會:科學與技術資料委員會". 檢索於 2012 年 7 月 6 日.
- ↑ "CODATA 資料科學期刊". 第 1 卷,第 1 期. 從日本科學技術資訊聚合器中檢索。2002 年 4 月. 檢索於 2012 年 7 月 6 日.
- ↑ "資料科學期刊". 第 1 卷,第 1 期. 哥倫比亞大學。2003 年 1 月. 檢索於 2012 年 7 月 6 日.
- ↑ "Mike Loukides". O'Reilly Media, Inc. 檢索於 2012 年 7 月 7 日.
- ↑ Mike Loukides (2010 年 6 月). "什麼是資料科學?". O'Reilly Media, inc. 檢索於 2012 年 7 月 7 日.
- ↑ Patil, DJ (2011). 構建資料科學團隊. Sebastopol, CA: O’Reilly Media, Inc.
- ↑ DJ Patil (2011 年 9 月 16 日). "構建資料科學團隊". O’Reilly Media, Inc. 檢索於 2012 年 7 月 7 日.
- ↑ "Strata 會議 2012". O’Reilly Media, Inc. 檢索於 2012 年 7 月 7 日.
- ↑ "資料科學峰會". Greenplum, Inc. 檢索於 2012 年 7 月 7 日.
- ↑ "資料科學職位趨勢". Indeed.com. 檢索於 2012 年 7 月 7 日.
- ↑ "高階分析研究所". 北卡羅來納州立大學. 檢索於 2012 年 7 月 7 日.
- ↑ "分析學碩士". 西北大學. 檢索於 2012 年 7 月 7 日.
- ↑ "資料科學暑期研究所". 伊利諾伊大學香檳分校. 檢索於 2012 年 7 月 7 日.
- ↑ "資料科學中心". 資料科學中心. 檢索於 2012 年 7 月 7 日.
- ↑ "kaggle". 以後 Kaggle Inc. 檢索於 2012 年 7 月 13 日.
- ↑ "行動式 R". 檢索於 2012 年 7 月 14 日.
您可以
- 分享 - 複製、分發、展示和表演作品(來自此維基的頁面)
- 重新混合 - 調整或製作衍生作品
在以下條件下
- 署名 - 您必須將此作品歸功於 Wikibooks。您不能以任何方式暗示 Wikibooks 以任何方式認可您或您對該作品的使用。
- 相同方式共享 - 如果您更改、轉換或構建此作品,您只能在與該許可證相同或類似的許可證下分發產生的作品。
- 放棄 - 您可以獲得版權持有者的許可,放棄上述任何條件。
- 公有領域 - 如果根據適用的法律,作品或其任何元素屬於公有領域,則此狀態不受許可證影響。
- 其他權利 - 許可證不會影響以下任何權利
- 您的公平交易或公平使用權利,或其他適用的版權例外和限制;
- 作者的署名權;
- 他人可能擁有的作品本身或作品的使用方式的權利,例如公開權或隱私權。
- 注意 — 對於任何重複使用或分發,您必須向他人明確說明此作品的許可條款。 最好的方法是連結到以下網頁。
