跳轉到內容

從 Unix 命令列進行臨時資料分析

100% developed
來自華夏公益教科書,開放的書籍,開放的世界
臨時資料分析
從 Unix 命令列

曾經,我和一位同事一起工作,他需要進行一些快速的資料分析來掌握問題的範圍。他正在考慮將資料匯入資料庫或編寫程式來解析和彙總這些資料。這兩種選擇都需要至少幾個小時,甚至幾天。我在他的白板上寫了這些:

你的朋友:cat、find、grep、wc、cut、sort、uniq

這些簡單的命令可以組合起來,快速回答大多數人會求助於資料庫的問題,如果資料已經存在於資料庫中。你可以快速(通常在幾秒鐘內)形成和檢驗關於幾乎任何記錄導向資料來源的假設。

目標受眾

[編輯 | 編輯原始碼]

您已登入到某個版本的 Unix 盒子,並運行了一些基本命令,例如lscdcat. 如果你不知道ls命令的作用,你需要一個比我在這裡給出的更基本的 Unix 簡介。

  1. 準備工作
  2. 標準輸入、標準輸出、重定向和管道
  3. 計數部分 1 - grep 和 wc
  4. 使用 cut 拆分資料
  5. 使用 join 合併資料
  6. 計數部分 2 - sort 和 uniq
  7. 使用內聯 perl 重寫資料
  8. 使用 gnuplot 進行快速繪圖
  9. 附錄
華夏公益教科書