跳轉到內容

資料科學:入門/資料科學的影響

來自華夏公益教科書,開放世界開放書籍


第 04 章:資料科學的影響



章節摘要

[edit | edit source]

在本章中,我們將探討資料科學如何徹底改變了我們世界的幾個不同方面:棒球、健康和機器人技術。

點球成金

[編輯 | 編輯原始碼]

(本節是 2012 年 10 月 3 日點球成金維基百科頁面的編輯版本。)

根據維基百科點球成金 (電影)指的是 邁克爾·劉易斯 在 2003 年出版的一本書[1],講述了奧克蘭運動家棒球隊及其總經理比利·比恩。它重點關注球隊在奧克蘭收入處於劣勢的情況下,採用分析性、基於證據的、棒球計量學方法組建一支有競爭力的棒球隊。一部根據該書改編的電影於 2011 年上映,主演布拉德·皮特。

《點球成金》的核心前提是,棒球內行人(包括球員、經理、教練、球探和管理層)在過去一個世紀積累的智慧是主觀的,而且常常存在缺陷。諸如盜壘、打點和打擊率等通常用來衡量球員的統計資料,是 19 世紀對比賽及其當時可用統計資料的看法遺留下來的產物。這本書認為,奧克蘭運動家的管理層利用更具分析性的球員表現衡量指標,組建了一支能夠與美國職業棒球大聯盟 (MLB) 中更富有的競爭對手成功競爭的球隊。

嚴格的統計分析表明,上壘率和長打率是進攻成功的更好指標,運動家隊確信,與歷史上更受重視的速度和觸球能力相比,這些品質在公開市場上更容易獲得。這些觀察結果往往與傳統的棒球智慧以及許多棒球球探和高管的信念相悖。

  • 透過重新評估球場上產生勝利的策略,2002 年的奧克蘭運動家隊,工資總額約為 4100 萬美元,能夠與紐約洋基隊等大型市場球隊相抗衡,紐約洋基隊在同一年花了超過 1.25 億美元的工資。由於球隊收入較低,奧克蘭被迫尋找市場低估的球員,而他們尋找低估球員價值的體系迄今已證明了其有效性。

劉易斯在書中探討了幾個主題,包括:內行人與外行人(已確立的傳統人士與棒球計量學新興支持者)、資訊民主化導致等級扁平化以及“資本主義要求的無情效率驅動”。這本書還談到了奧克蘭保持領先地位的潛在經濟需求;隨著其他球隊開始模仿比恩的策略來評估進攻人才,削弱了運動家的優勢,奧克蘭開始尋找其他被低估的棒球技能,如防守能力。

《點球成金》還涉及運動家隊選秀球員的方法。棒球計量學家認為,大學棒球球員進入 MLB 的成功率遠高於傳統的中學選秀球員。比恩認為,無論選秀球員的天賦或身體潛力如何,傳統的球探評估,花費高額選秀權簽下中學球員,比花費在更有經驗的大學球員身上風險更大。劉易斯以運動家隊小聯盟球員傑里米·邦德曼為例,他在 2001 年從高中被選中,比恩對此表示反對,這正是比恩想要避免的選秀型別。邦德曼擁有球探尋找的所有傳統“工具”,但多年來,成千上萬這樣的球員從高中被 MLB 球隊簽下,但最終未能發展起來。劉易斯探討了運動家隊在 2002 年 MLB 選秀中的方法,當時球隊獲得了前所未有的早期選秀權。這本書記錄了比恩在選秀準備階段與球探團隊(他們更傾向於傳統的主觀潛力評估而不是客觀的棒球計量學)之間經常緊張的討論,以及實際的選秀過程,這打破了所有預期,在當時被認為是比恩取得的巨大成功(儘管非正統)。

  • 此外,《點球成金》追溯了棒球計量學運動的歷史,包括比爾·詹姆斯(現為波士頓紅襪隊管理層成員)和克雷格·R·賴特等人物。劉易斯探討了詹姆斯具有開創性的《棒球抽象》是如何影響了許多現在加入棒球管理隊伍的年輕、有抱負的棒球人士的。這本書從 1970 年代後期到 1980 年代後期每年出版。

《點球成金》對職業棒球的影響如此之大,以至於這個詞本身已進入棒球的詞彙中。那些似乎重視棒球計量學概念的球隊,常被說成是在打“《點球成金》”。棒球傳統人士,尤其是某些球探和媒體成員,譴責棒球計量學革命,並貶低了《點球成金》,因為它強調棒球計量學概念,而不是更傳統的球員評估方法。然而,《點球成金》對大聯盟管理層的影響是不可否認的。

  • 在《點球成金》的推動下,紐約大都會隊、紐約洋基隊、聖地亞哥教士隊、聖路易斯紅雀隊、波士頓紅襪隊、華盛頓國民隊、亞利桑那響尾蛇隊、克利夫蘭印第安人隊[2] 和多倫多藍鳥隊都聘請了全職的棒球計量學資料科學家

自從這本書出版並取得成功以來,劉易斯已經討論了續寫《點球成金》的計劃,名為《弱者》,重新審視這些球員及其在幾年後的職業生涯中取得的相對成功。當紐約大都會隊在 2010 年賽季結束後聘請桑迪·奧爾德森(比恩在運動家的前任和導師)擔任總經理,並聘請比恩的前助手保羅·德波德斯塔和 J.P.裡奇亞迪加入管理層時,這支球隊被稱為“點球成金大都會隊”。[3] 邁克爾·劉易斯承認,這本書的成功可能對運動家的命運產生了負面影響,因為其他球隊已經接受了棒球計量學的使用,降低了奧克蘭從基於棒球計量學的評估中獲得的優勢。[4]

(本節改編自該公司的維基百科文章,截至 2012 年 10 月 3 日。)

根據維基百科23andMe 是一家總部位於加利福尼亞州山景城的私人控股的個人基因組學和生物技術公司[5],提供快速基因檢測。該公司以正常人體細胞中 23 對染色體命名。他們的個人基因組檢測工具包在 2008 年被《時代》雜誌評為“年度發明”。[6] 該公司由琳達·艾維安妮·沃西基創立,她們都認識到需要一種方法來組織和研究遺傳資料,個人消費者使用這些資訊的可能性,以及解釋結果的專業知識的需求。[7]

23andMe 於 2007 年 11 月開始提供 DNA 檢測服務,其結果線上釋出,允許訂閱者檢視遺傳特徵、家譜和可能的先天性風險因素的評估。[8] 客戶提供 2.5 毫升的唾液樣本,該樣本將在 Illumina 的 DNA 微陣列上進行分析,針對 960,000 個特定的 單核苷酸多型性 (SNP) 進行分析。最終目標是提供全基因組測序。[7]

  • 2011 年 6 月,23andMe 宣佈已積累了超過 100,000 個人的資料庫。[9]

該組織還為某些研究計劃[10] 提供檢測,向研究基金會提供機密的客戶資料集,並與研究基金會合作,目標是確定與特定疾病和疾病相關的遺傳關聯。[7] 谷歌聯合創始人謝爾蓋·布林(他的母親患有帕金森氏症,他與 23andMe 聯合創始人安妮·沃西基結婚)支付了公司帕金森氏症遺傳學計劃的費用,為患有這種疾病的人提供免費檢測。[11] 對帕金森氏症研究結果的分析比較了 23andMe 和美國國立衛生研究院 (NIH) 的一項計劃,結果表明,該公司使用大量計算能力和資料集可能會提供可比較的結果,但時間要少得多。[12]

該公司透過線上調查收集訂閱者的個人和社交資料。個人資料包括一個人的健康史、環境史以及諸如嗅覺能力等方面。社交資料包括家族史以及一個人參與的活動型別。該公司僱用了一些資料科學家來處理這些海量資料——一百多萬人擁有百萬個遺傳變數和數百個個人和社會變數。

  • 該公司的

(如果講師擁有 23andMe 賬戶,她可以登入並投影網站,向課堂上的學生展示 23andMe 資料科學家的結果。)

谷歌的無人駕駛汽車

[編輯 | 編輯原始碼]

(本節是維基百科關於谷歌無人駕駛汽車的文章的編輯版本,來自 2012 年 10 月 3 日。)

根據 維基百科谷歌的無人駕駛汽車是由谷歌工程師塞巴斯蒂安·特倫領導的一個專案,他是 斯坦福人工智慧實驗室 的主任,也是谷歌街景的共同發明人。特倫在斯坦福的團隊創造了機器人車輛 斯坦利,該車輛贏得了 2005 年 DARPA 大挑戰賽,並獲得了美國國防部提供的 200 萬美元獎金。[13]

美國內華達州於 2011 年 6 月通過了一項法律,允許在內華達州運營無人駕駛汽車。谷歌一直在遊說無人駕駛汽車法律。[14][15][16] 谷歌高管沒有說明他們選擇內華達州作為無人駕駛汽車首個執行州的具體原因。[16] 內華達州法律於 2012 年 3 月 1 日生效,內華達州機動車輛管理局於 2012 年 5 月頒發了第一張無人駕駛汽車牌照。該牌照頒發給了一輛改裝了谷歌實驗性無人駕駛技術的豐田普銳斯。[17] 2012 年 8 月,該團隊宣佈他們已經完成了超過 300,000 英里的無人駕駛里程,並且沒有發生任何事故,通常在任何給定時間都有大約 12 輛汽車在路上,並且他們開始對這些汽車進行測試,讓一名駕駛員單獨駕駛,而不是成對駕駛。[18] 截至 2012 年 9 月,美國有 3 個州通過了允許無人駕駛汽車的法律:內華達州、佛羅里達州和加利福尼亞州。[19]

該系統結合了從谷歌街景收集的資訊,以及人工智慧軟體,該軟體結合了來自汽車內部影片攝像頭的輸入,汽車頂部的 雷射雷達 感測器,汽車前部的雷達感測器,以及一個安裝在後輪上的位置感測器,該感測器有助於定位汽車在地圖上的位置。在 2009 年,谷歌從配備少量人工干預的無人駕駛汽車中獲得了 3,500 英里的街景影像。截至 2010 年,谷歌已經測試了幾輛配備該系統的車輛,在沒有任何人工干預的情況下行駛了 1,609 公里(1,000 英里),此外還行駛了 225,308 公里(140,000 英里),偶爾進行人工干預。谷歌預計其自動駕駛系統的準確性提高將有助於減少與交通相關的傷害和死亡人數,同時更有效地使用道路上的能源和空間。[13]

專案團隊已經為至少 8 輛測試車配備了裝置,[20] 每輛車都配備了一名駕駛記錄良好的駕駛員坐在駕駛座上,以及一名谷歌工程師坐在副駕駛座上。這輛車已經穿過了舊金山的 倫巴第街,以其陡峭的髮夾彎而聞名,並且穿過了城市交通。這些車輛已經駛過了金門大橋和太平洋海岸公路,並且環繞了太浩湖。[21]

谷歌的無人駕駛測試車大約有 150,000 美元的裝置,其中包括 70,000 美元的雷射雷達(雷射雷達)系統。[22] 該系統以它儲存在地圖上的限速行駛,並使用其感測器系統保持與其他車輛的距離。該系統提供了一個覆蓋功能,允許人類駕駛員透過踩剎車或轉動方向盤來控制汽車,這類似於汽車中已有的巡航控制系統。[13]

雖然谷歌沒有立即計劃商業化開發該系統,但該公司希望開發一項業務,將該系統及其背後的資料推銷給汽車製造商。加利福尼亞州機動車輛管理局的一名律師表示,“在許多領域,技術都走在法律的前面”,他引用了州法律,這些法律“都假定有人駕駛車輛”。[13] 根據《紐約時報》報道,政策制定者和監管機構認為,如果無人駕駛汽車要成為現實,就需要新的法律,因為“現在技術發展如此迅速,以至於它有可能超過現有的法律,其中一些法律可以追溯到馬車時代”。[16]

2011 年 8 月,一輛有人駕駛的谷歌無人駕駛汽車在加州山景城谷歌總部附近發生了該專案的第一起事故。谷歌表示,汽車在事故發生時處於手動駕駛狀態。[23] 第二起事件涉及一輛谷歌無人駕駛汽車在紅燈停車時被追尾。[24]

思考一下:2005 年,DARPRA 大挑戰賽的無人駕駛汽車獲勝者以平均每小時 19 英里的速度行駛了 123 英里。僅僅 5 年後,谷歌的無人駕駛汽車已經行駛了數十萬英里,速度為每小時 55 到 65 英里。人工智慧學科在 5 年內取得了如此大的進步嗎?沒有。區別在於資料科學。谷歌資料科學家為無人駕駛汽車將要行駛的每條街道建立了一個 3D 線框模型。即時地,汽車的資料科學演算法將實際觀察結果與模型(包括道路上的白色線條)進行比較,並相應地進行修正。

作業/練習

[編輯 | 編輯原始碼]

分成 4 或 5 人一組。一起觀看電影《點球成金》。觀看時,簡要記下資料科學是如何讓電影中的人物產生不同的。電影結束後,作為一個小組進行頭腦風暴,其他哪些生活領域資料科學可以發揮作用。推測資料科學的反對者可能會對使用資料科學提出哪些論點。選擇一個進行進一步考慮。作為一個小組,建立一個包含 4 張幻燈片的簡報,介紹你所選擇的領域;資料科學將如何發揮作用;反對意見是什麼;以及你的小組最終是否認為將資料科學引入該領域是一個好主意。

更多閱讀

[編輯 | 編輯原始碼]

參考文獻

[編輯 | 編輯原始碼]
  1. Lewis, Michael (2003). 點球成金:贏取不公平比賽的藝術. 紐約:W.W. 諾頓公司. p. 288. ISBN 0-393-05765-8.
  2. Woolner, Keith (2007-05-04). "文章 | 瞄準頭部:瞄準前臺". 棒球展望. 檢索於 2011-09-24.
  3. "The Moneyball Mets". 紐約. 2011年3月25日. 檢索於 2011-04-06.
  4. "Michael Lewis on A's 'Moneyball' legacy". 舊金山紀事報. 2011年9月18日. 檢索於 2011-09-23.
  5. "23andMe, Inc. Company Profile". Manta.
  6. "Time's Best Inventions of 2008". 時代. 2008-10-29. http://www.time.com/time/specials/packages/article/0,28804,1852747_1854493,00.html. 檢索於 2012-04-05. 
  7. a b c Goetz, T (2011-07-17). "23AndMe Will Decode Your DNA for $1,000. Welcome to the Age of Genomics". 連線. 檢索於 2012-04-05.
  8. Baertlein, L (2007-11-20). "Google-backed 23andMe offers $999 DNA test". 今日美國. http://www.usatoday.com/tech/webguide/internetlife/2007-11-20-23andme-launch_N.htm. 檢索於 2012-04-05. 
  9. "23andMe Database Surpasses 100,000 Users". 23andMe. 檢索於 2012-02-21.
  10. "23andWe Research". 23andMe. 檢索於 2012-04-05.
  11. Epstein, N. "Genia Brin's Double Parkinson's Mutation". 片刻. 檢索於 2012-07-17.
  12. Goetz, S (2010-06-22). "Sergey Brin's Search for a Parkinson's Cure". 連線. 檢索於 2012-04-05.
  13. a b c d John Markoff (2010-10-09). "Google Cars Drive Themselves, in Traffic". 紐約時報. http://www.nytimes.com/2010/10/10/science/10google.html. 檢索於 2010-10-11. 
  14. "Nevada enacts law authorizing autonomous (driverless) vehicles". 綠色汽車大會. 2011-06-25. 檢索於 2011-06-25.
  15. Alex Knapp (2011-06-22). "Nevada Passes Law Authorizing Driverless Cars". 福布斯. http://blogs.forbes.com/alexknapp/2011/06/22/nevada-passes-law-authorizing-driverless-cars/. 檢索於 2011-06-25. 
  16. a b c John Markoff (2011-05-10). "Google Lobbies Nevada To Allow Self-Driving Cars". 紐約時報. http://www.nytimes.com/2011/05/11/science/11drive.html?_r=1&emc=eta1. 檢索於 2011-05-11.  Invalid <ref> tag; name "NYT0511" defined multiple times with different content
  17. Mary Slosson (2012-05-08). "Google gets first self-driven car license in Nevada". 路透社. http://www.reuters.com/article/2012/05/08/uk-usa-nevada-google-idUSLNE84701320120508. 檢索於 2012-05-09. 
  18. 自動駕駛汽車行駛里程數增加, googleblog
  19. Muller, Joann. "With Driverless Cars, Once Again It Is California Leading The Way", Forbes.com, 2012年9月26日
  20. Damon Lavrinc (2012-04-16). "谷歌用混合動力雷克薩斯RX450h擴充套件其自動駕駛車隊". Wired. http://www.wired.com/autopia/2012/04/google-autonomous-lexus-rx450h/. 檢索於2012-04-24. 
  21. Sebastian Thrun (2010-10-09). "我們在努力什麼". 谷歌官方部落格. 檢索於 2010-10-11.
  22. Alisa Priddle. "谷歌公佈自動駕駛汽車測試成本". http://content.usatoday.com/communities/driveon/post/2012/06/google-discloses-costs-of-its-driverless-car-tests/#1. 
  23. "谷歌無人駕駛汽車引發五車相撞,事故原因歸咎於人為錯誤". The Star (多倫多). 2011-08-09. http://www.thestar.com/wheels/article/1036702--human-error-blamed-after-google-s-driverless-car-sparks-five-vehicle-crash. 
  24. John Markoff (2010年10月9日). "谷歌汽車在交通中自動駕駛". 紐約時報. http://www.nytimes.com/2010/10/10/science/10google.html?_r=1. 檢索於2012年8月12日. 
[編輯 | 編輯原始碼]

您可以自由地

  • 分享 — 複製、分發、展示和表演作品(來自本維基的頁面)
  • 混音 — 調整或製作衍生作品

在以下條件下

  • 署名 — 您必須將此作品歸功於華夏公益教科書。您不能暗示華夏公益教科書以任何方式認可您或您對本作品的使用。
  • 相同方式共享 — 如果您更改、轉換或基於此作品建立作品,您只能在與本許可相同或相似的許可下分發產生的作品。
  • 棄權 — 如果您獲得版權所有者的許可,可以放棄上述任何條件。
  • 公有領域 — 如果作品或其任何部分根據適用法律屬於公有領域,該狀態不受許可的影響。
  • 其他權利 — 許可不影響以下任何權利:
  • 您的合理使用權或公平使用權,或其他適用的版權例外和限制;
  • 作者的道德權利;
  • 其他人可能對作品本身或作品的使用方式擁有的權利,例如公開權或隱私權。
  • 通知 — 對於任何再利用或分發,您必須向他人清楚說明此作品的許可條款。最好的方法是連結到以下網頁。
http://creativecommons.org/licenses/by-nc-sa/3.0/
華夏公益教科書