跳轉至內容

資料科學:入門

50% developed
來自華夏公益教科書,開放的世界開放的書籍
歡迎來到


資料科學:入門


華夏公益教科書




本書是資料科學的入門級介紹,針對高中高年級學生或大學一年級學生,要求學生具備高中水平的數學、科學、文字處理和電子表格知識。無需具備任何計算機科學基礎。本書的重點在於幫助學生從資料科學的角度思考世界。雖然書中會教授一些基礎資料科學技能,但目的並非技能發展,而是培養批判性思維和解決問題的能力。這些技能可以成功應用於生活的各個階段,而不僅僅侷限於資料科學。

資料科學——作為一種職業和學術學科——是一個新興領域,誕生於 21 世紀的第一個十年。它是科學方法、資料和軟體工程、統計學和視覺化等成熟學科的產物。本書並非旨在單獨闡述這些學科,而是將它們融合在一起,形成一種富有成效的綜合體。因此,學生將被介紹到這些母學科,並被賦予將母學科融合到資料科學中的練習。此外,“駭客”在該詞原本的積極意義上,也是資料科學子學科的貢獻者,儘管“駭客”未被教授為學術學科。

顯然,成熟的資料科學家將在每一種母學科中都精通,分別學習並將其結合起來解決嚴重的資料問題。本書僅僅是朝著這個方向邁出的第一步,是初步的嘗試。

資料科學,正如今天所實踐的那樣,源於“大資料/雲計算”世界和複雜性科學。這意味著資料科學是一門高階學科,需要精通並行處理、MapReduce 計算、PB 級 NoSQL 資料庫、機器學習、高階統計學和複雜性科學。從這個意義上講,“真正的”資料科學更適合在碩士和博士階段教授。然而,我們相信資料科學不僅是熟練使用工具,更是思維方式。因此,我們希望讓學生在職業生涯早期就開始全面思考資料科學。本教材不會涉及資料科學中更高階的技術和技巧。然而,它將幫助學生開始像資料科學家一樣思考。

在當今的商業和政府領域,資料科學是以團隊的形式進行的。我們希望本課程的學生也能獲得這種體驗。因此,所有家庭作業、作業和練習都是為 2 到 6 名學生的團隊設計的。我們希望學生有機會在一個學期內與班上的其他每個人合作。大多數資料科學家無法選擇與誰合作,而是必須學會與分配給他們的團隊中的任何人都合作。

我們將主要在開源的R包中進行資料操作、計算機程式設計和統計分析。我們知道中級或高階學生會使用其他工具,例如 MySQLPHPPythonJavaHadoopHBaseAllegroGraphMahoutMATLABSPSSSAS 等。然而,對於本入門級介紹,我們將保持簡單,只使用一個通用的計算環境。

最後,我們儘量使用在維基百科維基詞典華夏公益教科書中已經定義的術語和概念。這樣,人們就可以參考相應的維基百科/維基詞典頁面,對概念有更深入的瞭解。

在頁面右側的目錄中,你會注意到有一個包含四個方格的小方框。該方框表示章節的成熟度。例如,


華夏公益教科書開發階段
稀疏文字 0% 正在開發的文字 25% 成熟文字 50% 已開發文字 75% 綜合文字 100%

致教師

[編輯 | 編輯原始碼]

我們為一個為期 16 周的 3 學分課程設計了這本教材。也就是說,一個每週有三個小時課堂教學的課程,持續 16 周——例如,48 個 1 小時課時。全書共有 32 章,平均每個學期分配一個星期用於學生專案展示、複習和幫助環節以及考試。我們預計學期初會有更多講座時間,學期末會有更多展示和複習時間。本書還假設每個課時需要 1 到 2 個小時的“家庭作業”,包括閱讀、作業、學習和專案。本書的理念是,透過做團隊作業專案,學生在資料科學方面能學到的知識,和他們在課堂講座中能學到的知識一樣多。

在專業領域,資料科學是一項團隊運動。我們為團隊設計了家庭作業專案,使其難度和範圍適中。在這個水平上(高中高年級或大學一年級),個人很難獨自完成這些作業。我們還假設學生可以去某個地方獲得關於 R 程式語言的幫助。

致貢獻者

[編輯 | 編輯原始碼]

首先,請在華夏公益教科書中註冊(並在下面列出你的名字),這樣我們就知道我們的共同貢獻者是誰。另外,請遵守華夏公益教科書的編輯指南風格手冊政策和指南。謝謝。

其次,我們只需要每個章節中的基本、清晰、直接的資訊。我們並非試圖做到面面俱到或完整——本書的價值在於跨學科的簡單綜合。還有其他地方可以詳細闡述某個特定主題的深度和複雜性。在貢獻時,請將自己置於“初學者的心態”中。請確保每個章節的範圍適合在一個小時的課時內完成教學。如果一個章節需要超過一個小時的教學時間,那麼它可能過於詳細。

  • 在儘可能的情況下,請按照維基百科和維基詞典中定義的方式使用術語和概念。這樣學生就可以參考相應的維基百科/維基詞典頁面,對概念有更深入的瞭解。

第三,這是一本跨學科的書籍。我們希望幫助人們將資料科學應用於所有領域。因此,我們需要各種簡單的示例和練習。

第四,請遵循每個章節的簡單結構:要點總結、討論、擴充套件閱讀、練習和參考文獻。我們希望“擴充套件閱讀”部分連結到線上資源。“參考文獻”部分可能包含離線資源。要開始一個新頁面,請使用此原型頁面中的維基標記。

第五,和任何華夏公益教科書一樣,請隨時進行更正、擴充套件解釋和必要時的新增,即使它不是“你的”章節。使用討論頁面解釋可能存在爭議的更改。

第六,一些語法規則

  • 請將學生應該學習的關鍵術語和短語加粗
  • 使用“程式碼”標籤將函式和程式碼片段的名稱括起來:<code>lm()</code>
  • 使用內聯連結 [[ ]]連結到維基百科、維基詞典、維基共享資源、華夏公益教科書和其他維基媒體基金會屬性。
  • 使用參考文獻(<ref> </ref>)連結到“外部”來源——包括線上和離線來源。
  • 在將 R 程式碼插入頁面時,請遵循 Google 的 R 風格指南。[1]
  • 如果你想新增圖片或圖表,應該將它們上傳到維基共享資源,而不是上傳到華夏公益教科書。
    • 如果合適,在上傳圖表時新增標籤{{Created with R}}) 。
  • 如果使用的是與R標準包不同的包,請在每個函式後面用括號加粗地寫出包的名稱:<code>MCMCprobit()</code> ('''MCMCpack''')
  • 你可以使用第三章資料的定義作為如何編寫章節的示例。

最後,非常感謝你自願加入我們的團隊!

合著者列表

[編輯 | 編輯原始碼]

另請參閱

[編輯 | 編輯原始碼]

檢視以下華夏公益教科書,瞭解本入門內容的後續內容

參考文獻

[編輯 | 編輯原始碼]
  1. "R 樣式指南". Google, Inc. 檢索於 2012 年 7 月 6 日.
[編輯 | 編輯原始碼]

你可以自由地

  • 分享 - 複製、分發、展示和表演作品(來自華夏公益教科書的頁面)
  • 重混 - 改編或製作衍生作品

在以下條件下

  • 署名 - 你必須將此作品歸功於華夏公益教科書。你不能暗示華夏公益教科書以任何方式認可你或你對本作品的使用。
  • 相同方式共享 - 如果你修改、轉換或在該作品的基礎上進行構建,你只能在與本許可證相同或類似的許可證下分發生成的著作。
  • 放棄 - 如果你獲得版權持有人的許可,上述任何條件都可以放棄。
  • 公有領域 - 如果根據適用的法律,該作品或其任何元素屬於公有領域,則此狀態不受許可證影響。
  • 其他權利 - 許可證不會以任何方式影響以下任何權利
  • 你的合理使用權或其他適用的版權例外和限制;
  • 作者的署名權;
  • 其他人可能對作品本身或作品的使用方式擁有的權利,例如公開權或隱私權。
  • 通知 - 對於任何再利用或分發,你必須向他人明確說明本作品的許可證條款。執行此操作的最佳方法是連結到以下網頁。
http://creativecommons.org/licenses/by-nc-sa/3.0/
華夏公益教科書