跳轉到內容

Lentis/演算法偏差

來自華夏公益教科書,開放世界開放書籍

演算法偏差指的是計算機系統產生的不良結果,這些結果錯誤地或不公平地優先考慮某一組人而不是另一組人。本章目前重點關注美國演算法偏差。

尤其重要的是機器學習 (ML) 和人工智慧 (AI) 中的演算法偏差。

公司和個人越來越多地依賴人工智慧系統。搜尋引擎結果、社交媒體推薦、招聘決策、股市預測和警務實踐都使用人工智慧預測模型的資訊。[1] 這些模型中的演算法偏差特別危險,因為人類存在自動化偏差,即人類在面對計算機生成的解決方案時傾向於無視矛盾資訊。[2] 這增加了人工智慧系統中的偏差導致系統使用中產生不公平或不公正結果的可能性。

人工智慧系統中是如何出現演算法偏差的?通常,人工智慧系統執行在從現有來源收集的大量資料集上,沒有經過細化。這會導致任何現有的偏差,通常是制度性的或隱性的,被傳遞到人工智慧系統。[3] 考慮一個旨在為計算機科學職位找到最佳候選人提供競爭優勢的人工智慧招聘演算法。由於計算機科學目前是男性主導的領域,招聘演算法可能會錯誤地優先考慮男性申請人。類似案例的例子是亞馬遜的招聘演算法。這樣,人工智慧系統會複製現有的偏差,並在現狀中延續現有的偏見。

組裝偏差是一種針對人工智慧和機器學習系統的獨特演算法偏差型別,它描述了人工智慧系統引入的目前社會中不存在的新偏差。[4] 組裝偏差源於人工智慧模型是生成性的而不是純粹統計性的想法。一個更好的理解這種現象的玩具例子是人工智慧生成逼真的影像。[5] 當被要求建立蜘蛛的影像時,人工智慧模型可能會生成一隻十一條腿的蜘蛛的極其詳細、逼真的紋理影像。即使人工智慧只接受過八條腿的蜘蛛的影像訓練,但人工智慧對如何計算腿沒有概念——相反,它建立了定義蜘蛛的自身指標。

人工智慧開發和研究職位明顯缺乏多樣性。只有大約 20% 的人工智慧研究人員是女性,其他少數族裔群體也同樣代表性不足。[6] 因為開發人工智慧系統的最終目標通常是對模糊的概念進行量化,所以在場和參與系統工作的人員的觀點會強烈影響結果。人工智慧職位缺乏多樣性代表了另一個可能的偏差來源,因為多數人的觀點將在結果中被過分重視。

目前,人工智慧系統中演算法偏差導致的不公平結果似乎主要損害了女性和性或種族少數群體。對抗人工智慧和機器學習這種意想不到的結果是一個正在進行的研究領域。[7]

案例研究和社會影響

[編輯 | 編輯原始碼]

亞馬遜的招聘演算法

[編輯 | 編輯原始碼]

2014 年,亞馬遜啟動了一項使用人工智慧審查求職簡歷的專案。該專案的目的是減少在尋找合適候選人以填補職位空缺方面所花費的時間。人工智慧接受了該公司過去 10 年提交的簡歷的訓練。提交的簡歷的人口統計資料與大多數科技公司的相似:主要由男性組成,尤其是在技術職位方面。因此,人工智慧產生了偏向男性簡歷而不是女性簡歷的演算法,因為之前大多數成功的候選人都是男性。這體現在演算法中,因為它懲罰了包含“女性”一詞的簡歷,或者獎勵那些包含更多男性簡歷中常見的詞語的簡歷,例如“捕捉”或“執行”。還發現該演算法會降低那些畢業於女子學院的候選人的等級。[8]

為了對抗該工具的性別偏見結果,亞馬遜使該程式對與性別相關的術語保持中立。透過這樣做,亞馬遜參與了內部審計,這是一種旨在減少演算法偏差的技術,透過確保機器學習模型中出現的任何偏差都被發現並停止。但是,它沒有解決問題的核心,即基礎資料。另一種方法是分析現有的資料集以預測演算法可能存在偏差的地方,根據需要評估和修改對資料的假設。這種方法在其他人工智慧應用中取得了成功。然而,在本例中,亞馬遜沒有解決基礎資料問題。這促使演算法找到了對候選人進行排序的其他歧視性方式。該工具於 2017 年被退休,原因是“高管對該專案失去了希望”。[8]

亞馬遜的批評者認為,這種演算法助長了他們員工隊伍中的性別差距。亞馬遜沒有否認他們的招聘人員查看了該工具生成的推薦,但堅持認為該工具“從未被[他們]用來評估候選人”。[8] 亞馬遜的反對者認為,兩者是相互排斥的;招聘人員肯定受到該工具的影響,即使他們聲稱沒有受到影響,該工具會根據 1 到 5 顆星對候選人進行評分。一些批評者,比如 ACLU 律師雷切爾·古德曼,進一步認為人工智慧招聘工具“並沒有消除人為偏差——它們只是透過軟體洗去了這種偏差”。[9] 人工智慧招聘技術的支持者更加樂觀:在 CareerBuilder 2017 年的一項調查中,55% 的美國人力資源經理表示,人工智慧將在未來五年內成為其工作的常規部分。[10] 然而,正如 LinkedIn 人才解決方案副總裁約翰·耶爾辛解釋的那樣,該技術還有很大的改進空間,才能“獨自做出招聘決策”。[8]

亞馬遜此後恢復了該專案,希望強調多樣效能夠帶來更公平的演算法結果。但是,在沒有對模型訓練的資料進行批判性評估的情況下,尚不清楚為什麼特定的演算法重點會帶來非歧視性的演算法結果。

人臉識別演算法

[編輯 | 編輯原始碼]

包括 IBM 和微軟在內的幾家公司開發了人臉識別演算法,這些演算法僅使用人臉識別個人。[11] 這些演算法可供公眾使用,並且已被警察部門與影片監控程式一起使用。[12] 2018 年,喬伊·博拉姆維尼研究了 IBM、微軟和 Face++ 人臉識別演算法在性別分類方面的偏差,發現它們都對“較淺的面孔比較深的面孔表現得更好”,並且對“較深的女性面孔”表現最差。[13] 所有演算法在“較淺的男性和較深的女性”之間都存在準確性差距,超過 20%,其中 IBM 的演算法表現最差,差距為 34.4%。[13] 2019 年,美國國家標準與技術研究院 (NIST) 證實了演算法性別偏差和種族偏差是一個行業範圍內的問題,在研究的 189 種人臉識別演算法中,對有色人種,尤其是女有色人種的準確性最低。[14] 針對這項研究,IBM 停止了他們的人臉識別演算法的研究。[15],微軟和 Face++ 釋出了他們的人臉識別演算法的改進版本,並將他們的準確性差距縮小了 19% 以上。[16],亞馬遜禁止警察部門使用其人臉識別演算法。[17]

預測性警務

[編輯 | 編輯原始碼]
另請參閱:Lentis/預測性警務

貸款演算法

[編輯 | 編輯原始碼]

金融科技 (Fintech) 是一個領域,貸款演算法開始取代面對面的會議。在美國,45% 的大型抵押貸款機構提供基於軟體的貸款解決方案,但它們因歧視性定價而受到審查。Bartlett 等人進行的一項研究發現,透過線上平臺和麵對面會議,黑人和拉丁裔借款人平均支付的購買貸款利率比同等借款人高出 7.9 個基點,再融資貸款利率高出 3.6 個基點。這種差異每年給黑人和拉丁裔借款人造成 7.56 億美元的損失。研究人員發現,演算法中的歧視程度比面對面的貸款機構低約 40%。具體來說,當使用 Fintech 演算法時,弱勢群體借款人支付的利率比其對應者高出 5.3 個基點(比傳統方法低 2.6 個基點)[18]。該研究分析了 2008 年至 2015 年間由 Fannie Mae 和 Freddie Mac 發放的 30 年期固定利率單戶住宅貸款,發現貸款機構從向弱勢群體發放的購買貸款中獲得了 11% 到 17% 的更高利潤[19]。儘管貸款演算法表現出比傳統的面對面貸款機構更少的偏差,但任何程度的偏差的持續存在都強調了需要審查貸款演算法並確定演算法偏差的來源。

貸款演算法基於機器學習和大資料,它們使用各種客戶屬性來設定價格。例如,地理位置可能起著重要作用,因為演算法可以定位比較購物可能性較小的地區。演算法可能確定金融沙漠地區,這些地區的金融儲備較低,申請人面臨著壟斷定價,而不是擁有許多選擇。演算法可能不會專門針對弱勢群體申請人,但其邏輯可能會設定更高的價格,因為知道申請人更有可能接受它[19]

訓練資料中潛在的歷史歧視也可能導致演算法不利於弱勢群體,並加劇財富差距。Fintech 貸款演算法使用未來借款人的信用記錄、就業狀況、資產、債務以及申請的貸款金額來設定利率。“如果你輸入的資料基於歷史歧視,那麼你基本上是在另一端鞏固歧視,”負責任借貸中心拉丁裔事務主任 Aracely Panameño 說。研究還表明,發放高利貸的公司經常在以有色人種為主的社群中進行“捕食”,因為這些社群通常銀行分支機構較少。銀行報告正面和負面信用行為,而高利貸服務僅報告逾期付款。結果,這些社群中的弱勢群體發現自己擁有不完整或有偏差的信用記錄,這些記錄後來被輸入到貸款融資演算法中[20]

COMPAS 犯罪再犯演算法

[編輯 | 編輯原始碼]

演算法

[編輯 | 編輯原始碼]

針對替代制裁的矯正罪犯管理分析 (COMPAS) 演算法是一種機器學習演算法,用於刑事判決期間的司法決策。COMPAS 用於威斯康星州、紐約州、加利福尼亞州和佛羅里達州,預測再犯的潛在風險。該商業演算法由 Northpointe, Inc.(現為 Equivant)建立,使用問卷將被告歸類為“低風險”、“中風險”或“高風險”,得分分別為 1-4、5-7 或 8-10[21]。年齡、性別和犯罪歷史等因素被使用,而種族則沒有[22]。今天,COMPAS 仍然被用來為保釋、判決和提前釋放提供建議,許多人質疑 COMPAS 在提供客觀建議方面的有效性和公平性,特別是在種族方面[23]

2016 年,普利策獎獲得者非營利新聞機構 ProPublica[24] 進行了一項研究,以評估 COMPAS 的種族偏見。COMPAS 得分中風險或高風險,被告在 2 年內再次犯罪,以及 COMPAS 得分低,被告在 2 年內沒有再次犯罪,被認為是正確的預測[25]。ProPublica 發現,白人和黑人被告的再犯預測正確率分別為 59% 和 63%。這大致相同。該公司在接受質詢時表示,“該演算法的目的是實現這一目標。對所有群體都具有相同比例的正確率的測試不會存在偏見。”[23]。Northpointe Inc. 甚至在其《實踐指南》中引用了其他研究,證實其演算法的成功和中立性[26]

ProPublica 發現,黑人被告的得分從 1 到 10 都是均勻的,而白人被告的得分主要較低。在調整了黑人被告整體再犯率較高的因素後,ProPublica 發現,COMPAS 在保持類似準確率的同時,“更有可能將黑人被告錯誤地分類為高風險,而不是將白人被告錯誤地分類為高風險……該測試傾向於對白人犯相反的錯誤”。[25]

延續的系統性種族主義

[編輯 | 編輯原始碼]

COMPAS 延續了刑事司法系統中存在的歷史和結構性偏見。例如,COMPAS 考慮一個人的居住地。以少數民族為主的地區通常受到更多警方的監管,這會誇大逮捕資料。如果地理位置與再犯率相關,那麼種族也會間接地相關。因此,這些相關性在沒有采取有效性措施的情況下可能是危險的。作為一個私人公司,Northpointe 沒有法律義務分享關於 COMPAS 如何計算其得分或權衡其變數的詳細資訊[21]

被標記為高風險/中風險的被告可能會受到更嚴厲的判決。美國判決委員會發現,被判處 60 到 120 個月和超過 120 個月監禁的罪犯再次犯罪的可能性明顯降低[27]。如果被告被懷疑是高風險,他們可能會被判處更長的刑期,並且不太可能獲得保釋或提前釋放。儘管 COMPAS 宣稱種族中立,但它對黑人被告的錯誤標記可能會導致負面後果,並可能進一步加劇刑事司法系統中的種族不平等[24]

美國醫療保健管理演算法

[編輯 | 編輯原始碼]

演算法

[編輯 | 編輯原始碼]

美國多個醫療保健系統使用商業演算法來指導醫療決策,並針對患者進行“高風險護理管理”計劃,以幫助確保提供適當的護理。這些計劃中的大多數對患有危重疾病的患者是有益的,因為他們擁有專業的護士團隊、額外的初級保健預約時間以及其他稀缺資源[28]。因此,醫院和保險公司一直依賴一種特定的演算法來最大限度地降低患者的成本,同時針對從這些計劃中獲益最多的更嚴重的患者[29]

2019 年,Obermeyer 等人針對“越來越擔心演算法可能會透過構建演算法的人員或用於訓練它們的

研究發現,與白人患者具有相同演算法預測風險的黑人患者,其慢性病患病率高出 26.3%。此外,研究人員發現,當觀察特定生物標誌物(這些標誌物反映了各種慢性疾病(高血壓、糖尿病、壞膽固醇等)的嚴重程度)時,黑人患者的疾病比具有相同風險評分的白人患者更嚴重。這是因為與患有相同慢性病的白人患者相比,黑人患者產生的預期醫療費用更低。由於該演算法將患者醫療保健支出作為生成風險評分的主要機制,因此這些支出差異導致了對黑人和白人患者疾病感知水平之間的差異。[28]

延續的系統性種族主義

[edit | edit source]

該研究確定了導致黑人醫療保健支出減少的兩個系統性原因,這些原因導致了該演算法的偏差。首先,儘管擁有醫療保險,但貧困患者仍面臨著許多障礙,這些障礙可能會阻礙他們獲得醫療保健(地理位置、交通工具、工作或育兒的競爭性需求、瞭解尋求醫療保健的原因等)。其次,種族可以透過醫生的直接歧視或醫患關係的變化影響患者的支出,導致患者沒有被推薦接受進一步的治療或選擇不尋求進一步的治療。這些觀察結果表明,用於決策模型的準確方法可能會間接地使社會中的特定群體處於不利地位,並可能延續現有的系統性種族主義。[28]

結論

[edit | edit source]

未來,演算法偏差將對人類活動產生越來越大的影響。[30] 顯然,不受監控、不受約束的演算法生產和應用對不同群體的人們來說可能是災難性的。公司和行業能夠輕鬆利用這些演算法,造成了一個環境,在這個環境中,不公平的結果會不斷延續。減少演算法偏差的可能途徑包括立法、內部審計和社群裁決,以及提高意識和責任文化。[30] 許多這些途徑主要屬於社會性和非技術性,這與演算法偏差的社會技術性質相一致。演算法偏差的日益普遍僅僅是技術影響美國乃至全世界人類生活的一種方式。在廣泛採用之前,必須仔細檢查許多其他具有看似無限潛力的新技術,因為未能做到這一點會導致有害後果,而這正是當今許多應用演算法的情況。最後,建議對立法對演算法偏差的影響、演算法偏差對美國以外國家的影響以及新的偏差緩解技術進行進一步研究。

參考文獻

[edit | edit source]
  1. IBM. (n.d.). 大資料分析. https://www.ibm.com/analytics/hadoop/big-data-analytics.
  2. Cummings, Mary (2004). "智慧時間關鍵決策支援系統中的自動化偏差" (PDF). AIAA 第一次智慧系統技術會議 (PDF). doi:10.2514/6.2004-6313. ISBN 978-1-62410-080-2. 存檔於 2014-11-01.
  3. Hao, K. (2019 年 2 月 4 日). 這就是 AI 偏差的真正發生方式 - 以及為什麼它如此難以修復. MIT 技術評論. https://www.technologyreview.com/2019/02/04/137602/this-is-how-ai-bias-really-happensand-why-its-so-hard-to-fix/.
  4. Waller, R.R., Waller, R.L. 組裝偏差:超越透明演算法偏差. 心靈與機器 32, 533–562 (2022). https://doi-org.proxy1.library.virginia.edu/10.1007/s11023-022-09605-x
  5. Gray, Richard. (2018 年 11 月 27 日). 為什麼機器會夢到 15 條腿的蜘蛛。 https://www.bbc.com/future/article/20181127-the-weird-way-machines-with-ai-see-the-world
  6. Kumar, S., Choudhury, S. 人工智慧中的性別和女權主義考慮,從發展中國家的視角,以印度為例。人文學科和社會科學通訊 9, 31 (2022). https://doi.org/10.1057/s41599-022-01043-5
  7. Hao, K. (2019 年 2 月 4 日). 這就是 AI 偏差的真正發生方式 - 以及為什麼它如此難以修復. MIT 技術評論. https://www.technologyreview.com/2019/02/04/137602/this-is-how-ai-bias-really-happensand-why-its-so-hard-to-fix/.
  8. a b c d Dastin, J. (2018 年 10 月 10 日). 亞馬遜放棄了顯示對女性有偏見的秘密 AI 招聘工具。 路透社. https://www.reuters.com/article/us-amazon-com-jobs-automation-insight/amazon-scraps-secret-ai-recruiting-tool-that-showed-bias-against-women-idUSKCN1MK08G
  9. Goodman, R. (2018 年 10 月 12 日). 為什麼亞馬遜的自動化招聘工具歧視女性. 美國公民自由聯盟. https://www.aclu.org/blog/womens-rights/womens-rights-workplace/why-amazons-automated-hiring-tool-discriminated-against
  10. CareerBuilder. (2017 年 5 月 18 日). 超過一半的人力資源經理表示,人工智慧將在未來 5 年內成為人力資源的常規部分 [新聞稿]. https://www.scribbr.com/apa-examples/press-release/
  11. Najibi, A. (2020). 人臉識別技術中的種族歧視. 新聞中的科學; 哈佛大學. https://sitn.hms.harvard.edu/flash/2020/racial-discrimination-in-face-recognition-technology/
  12. Hao, K. (2020 年 6 月 12 日). 阻止亞馬遜向警方出售人臉識別的兩年鬥爭. MIT 技術評論. https://www.technologyreview.com/2020/06/12/1003482/amazon-stopped-selling-police-face-recognition-fight/
  13. a b Buolamwini, J., Gebru, T., Friedler, S., & Wilson, C. (2018). Gender Shades: 商業性別分類中的交叉準確性差異 *. 機器學習研究論文集, 81, 1–15. http://proceedings.mlr.press/v81/buolamwini18a/buolamwini18a.pdf
  14. Grother, P., Ngan, M., & Hanaoka, K. (2019). 人臉識別供應商測試第三部分:人臉識別供應商測試 (FRVT) 第三部分:人口統計影響. https://doi.org/10.6028/nist.ir.8280
  15. Jee, C. (2020 年 6 月 9 日). IBM 表示不再進行人臉識別工作,因為它被用於種族分析. 技術評論; MIT 技術評論. https://www.technologyreview.com/2020/06/09/1002947/ibm-says-it-is-no-longer-working-on-face-recognition-because-its-used-for-racial-profiling/
  16. Buolamwini, J. (2019). 可操作的審計:調查公開命名商業 AI 產品偏差效能結果的影響 - MIT 媒體實驗室. MIT 媒體實驗室. https://www.media.mit.edu/publications/actionable-auditing-investigating-the-impact-of-publicly-naming-biased-performance-results-of-commercial-ai-products/
  17. Hao, K. (2020 年 6 月 12 日). 阻止亞馬遜向警方出售人臉識別的兩年鬥爭. MIT 技術評論. https://www.technologyreview.com/2020/06/12/1003482/amazon-stopped-selling-police-face-recognition-fight/
  18. Gunn, D. (2019 年 10 月). 少數族裔借款人支付更多,即使在演算法貸款下也是如此. 摘要第 10 號. www.nber.org/digest/oct19/minority-borrowers-pay-more-even-under-algorithmic-lending
  19. a b Counts, L. (2018 年 11 月 13 日). 少數族裔購房者面臨普遍的統計貸款歧視,研究發現. BerkeleyHaas. newsroom.haas.berkeley.edu/minority-homebuyers-face-widespread-statistical-lending-discrimination-study-finds
  20. Martinez, E., & Kirchner, L. (2021 年 8 月 25 日). 隱藏在抵押貸款審批演算法中的秘密偏差. 標記. themarkup.org/denied/2021/08/25/the-secret-bias-hidden-in-mortgage-approval-algorithms
  21. a b Park, A. L. (2019 年 2 月 19 日). 機器中的不公:刑事判決中的預測演算法. 法律與世界. https://www.uclalawreview.org/injustice-ex-machina-predictive-algorithms-in-criminal-sentencing/#_ftn2.
  22. Rahman, F. (2020 年 9 月 7 日). Compas 案例研究:機器學習模型的公平性. 走向資料科學. https://towardsdatascience.com/compas-case-study-fairness-of-a-machine-learning-model-f0f804108751.
  23. a b Angwin, J. 和 Larson, J. (2016 年 12 月 30 日)。刑事風險評分中的偏差在數學上是不可避免的,研究人員說。ProPublica。https://www.propublica.org/article/bias-in-criminal-risk-scores-is-mathematically-inevitable-researchers-say。
  24. a b Spielkamp, M. (2017 年 6 月 12 日)。檢查演算法的偏差。麻省理工學院科技評論。https://www.technologyreview.com/2017/06/12/105804/inspecting-algorithms-for-bias/。
  25. a b Larson, J.,Mattu, S.,Kirchner, L. 和 Angwin, J. (2016 年 5 月 23 日)。我們如何分析 COMPAS 累犯演算法。ProPublica。https://www.propublica.org/article/how-we-analyzed-the-compas-recidivism-algorithm。
  26. Northpointe Inc. (2015 年 3 月 19 日)。COMPAS Core 實踐指南。http://www.northpointeinc.com/downloads/compas/Practitioners-Guide-COMPAS-Core-_031915.pdf
  27. ORD(2020 年 4 月)。美國量刑委員會研究與資料辦公室。監禁時間和累犯。https://www.ussc.gov/sites/default/files/pdf/research-and-publications/research-publications/2020/20200429_Recidivism-SentLength.pdf
  28. a b c d Obermeyer, Z.,Powers, B.,Vogeli, C. 和 Mullainathan, S. (2019)。解剖用於管理人群健康的演算法中的種族偏見。科學366(6464),447–453。https://doi.org/10.1126/science.aax2342
  29. Vartan, S. (2019 年 10 月 24 日)。在主要的醫療保健風險演算法中發現了種族偏見。科學美國人。https://sciam.tw/article/racial-bias-found-in-a-major-health-care-risk-algorithm/.
  30. a b Garcia, M. (2016 年 12 月 1 日)。機器中的種族主義:演算法偏差的令人不安的含義。世界政策雜誌,33(4),111 - 117。
華夏公益教科書