跳轉到內容

Lentis/軟體新聞學:當程式撰寫新聞

來自華夏公益教科書,為開放世界提供開放書籍

軟體新聞學是指使用計算機程式來撰寫新聞。這些程式接收資料以生成人類可讀的新聞故事。本章描述了關於軟體新聞學的基本資訊,並探討了軟體新聞學軟體、新聞生產者和新聞消費者之間的社會互動。

軟體新聞學,有時也稱為自動化新聞學或機器人新聞學,是指使用計算機程式來自動生成來自結構化資料的文字敘述。它與自動化報道密切相關。

演算法

[編輯 | 編輯原始碼]

軟體新聞學應用程式使用演算法,可以快速為給定主題建立大量故事。這些演算法最擅長編寫關於具有乾淨、準確和結構化資料的重複性主題的故事。想要削減成本和生產更多新聞的組織使用軟體新聞學演算法。

規模和速度

[編輯 | 編輯原始碼]

軟體新聞學演算法比人類記者能夠做到的更快、更大規模地生成新聞。例如,Ken Schwneke 開發了 Quakebot 來自動化地震報道。該軟體使用來自美國地質調查局的資料檢測到了一次 4.4 級地震。Quakebot 在最初震動後三分鐘內為洛杉磯時報發表了這篇報道,這比所有競爭對手的新聞媒體都要快[1]。洛杉磯時報後來開始了一個部落格,為當地居民提供兇殺案報告。該部落格的軟體比人類記者更快地篩選驗屍官辦公室的資料,並且比人類記者能夠編寫的報告更深入[2]

個性化

[編輯 | 編輯原始碼]

演算法可以使用相同的資料以不同的角度建立許多故事。敘事科學使用軟體新聞學演算法對前弗吉尼亞大學投手 Will Roberts 對喬治華盛頓大學完美比賽進行了各種回顧。中立和親 GW 的故事被製作出來以說明這種效果。這些不同的總結是從比賽的計分板中產生的[3]

偏差和錯誤

[編輯 | 編輯原始碼]

軟體新聞學演算法並非沒有錯誤和偏差。程式設計師的假設會導致演算法產生不正確的結果。例如,美聯社使用 Wordsmith 自動生成了一篇關於Netflix第二季度收益的報道。該報道錯誤地指出 Netflix 的股價在一年內下跌了 71%,而實際上股價翻了一番。這種錯誤的發生是因為 Wordsmith 的演算法無法檢測到 Netflix 財務資料中的 7.1 比一股票分割。由於這個演算法錯誤,Netflix 的股票下跌,美聯社後來釋出了更正[4]。異常值、有偏差的資料和程式設計師的偏差會導致不正確的故事,可能需要進行關鍵的更正[5]。演算法在進行分析性見解方面也有侷限性;它們無法提出問題或解釋現象[6]

NLG 與 NLP

[編輯 | 編輯原始碼]

軟體新聞學程式使用自然語言生成 (NLG) 來建立內容。NLG 是自然語言處理 (NLP) 的對應物。NLP 將文字轉換為結構化資料,而 NLG 從資料生成上下文敘述。NLP 和 NLG 都是人工智慧 的領域[7]

為什麼使用軟體新聞學?

[編輯 | 編輯原始碼]

軟體新聞學使內容生產者能夠透過無縫的資料來源整合快速識別對敘述很重要的資訊。可以使用任何大小的資料集自動生成故事。生成的敘述與人類記者撰寫的敘述幾乎無法區分,並且可以個性化。員工生產力也提高了,因為員工不再需要進行手動報告和耗時的資料分析。這使員工能夠專注於個人成長和更高階的內容生成。所有這些好處使內容生產組織能夠生成更多敘述,同時降低生產成本[8]

如何使用軟體新聞學

[編輯 | 編輯原始碼]

在生成內容之前需要資料。軟體可以使用預定義的來源或資料探勘文字來滿足此要求。必須使用乾淨、準確的資料,否則可能會出現錯誤。演算法對可用資料使用統計方法來識別有趣的事件。使用者通常為演算法提供識別規則以查詢此類事件。這些規則還用於優先考慮事件的見地。使用故事和風格模板從最重要的事件中生成敘述。內容釋出者可以在將自動生成的故事發布到公眾之前對其進行稽核[9]

軟體新聞學除了撰寫新聞之外,還有多種用途。這些包括

  • 電子商務:公司可以使用製造商資料為客戶建立有針對性和引人入勝的產品描述[10]
  • 媒體:美聯社使用軟體新聞學來生成每個季度 3700 篇收益報道;這比手動報告生成的報道數量多 12 倍[11]
  • 金融服務:銀行和投資管理公司依靠自動化內容生成來建立投資組合摘要、收益回顧和市場報告[12]
  • 房地產:房產描述、市場趨勢和社群摘要可以從房地產資料中生成[13]
  • 客戶互動 奧蘭多魔術隊 自動生成內容以吸引轉售座位季票持有者[14]

參與者

[edit | edit source]

NLG 公司

[edit | edit source]

幾家公司的軟體生產了當今絕大多數的 NLG 內容。該行業的最大參與者是 自動化洞察 和 Narrative Science。自動化洞察製作 Wordsmith,Narrative Science 開發 Quill。自動化洞察在 2013 年生成了 3 億篇文章,在 2014 年生成了 10 億篇文章。這相當於 2013 年主要媒體機構所有內容產量的總和。[15]。自動化洞察在 2015 年釋出了 Wordsmith 的公開版本。

生成的內容量

[edit | edit source]

美聯社透過 Wordsmith 每季度自動生成至少 3000 份收益報告。美聯社還使用 Wordsmith 每年回顧超過 9000 場小聯盟棒球比賽[16]。自動化洞察估計 Wordsmith 僅在 2015 年就生成了 15 億篇文章[17],並且 Wordsmith 如果需要可以每秒建立 2000 篇文章[18]

使用軟體新聞的公司

[edit | edit source]

各種各樣的公司使用 NLG 軟體。

軟體新聞用於擴大內容製作規模;使用軟體新聞可以更低成本地製作更多內容。公司重視在更快地製作更多媒體以吸引特定受眾的同時降低成本。

媒體消費者

[edit | edit source]

媒體消費者是自願的,並且會進行事實核查。他們主動尋求資訊,並且可以隨時停止消費媒體。這些人希望從可信來源獲取準確的內容。可以出於個人利益和享受來消費內容。

讀者對自動生成內容的感知

[edit | edit source]

2014 年的一項研究調查了讀者如何看待軟體生成的內容與人類撰寫的內容。該研究的參與者看到各種文字,並被要求根據客觀性、清晰度和可信度等標準對其進行排名。聲稱由人類記者撰寫的文字在連貫性、可讀性和清晰度方面得分更高,而軟體生成的文字在準確性、資訊傳遞、描述性、可信度和客觀性方面得分更高。該研究表明,這些觀察到的差異在統計學上並不顯著。因此,讀者對軟體生成的文字的看法與人類撰寫的文字相同[23]

另一項研究檢查了讀者如何感知使用計算機和人類在同一主題上撰寫的文章的內容差異。該研究的結果表明,無論實際作者型別如何,被認為是人類撰寫的文章的排名都更高。同樣,被認為是計算機撰寫的文章的排名都更低。該研究認為,讀者對計算機生成內容的先入為主的觀念會影響內容的感知質量。換句話說,讀者無法辨別計算機撰寫內容與人類撰寫內容之間的實際差異[24]

社會影響

[edit | edit source]

資訊的信度

[edit | edit source]

對於受眾來說,很難確定一篇文章是由人類還是演算法撰寫的。文章通常沒有標註。由 紐約時報 生成的線上測驗顯示,讀者大約有 50% 的時間能夠確定文章的來源[25]

無論作者型別如何,文章都可能出現錯誤。NLG 軟體存在三個主要錯誤來源

  • 由於 NLG 軟體開發人員的偏見導致的錯誤傳播。
  • 輸入軟體模板的資料錯誤。
  • 由於資料流損壞導致的錯誤( 駭客攻擊)。

這些錯誤比人為錯誤更頻繁地出現在公眾面前,因為文章釋出速度快於人工 質量控制 的處理速度。有些情況下,軟體新聞會在內容中產生嚴重錯誤。2014 年 7 月 23 日美國東部時間上午 9:50,美聯社發推文稱,“快訊:載有 馬航 17 號航班 墜毀事故遇難者遺體的荷蘭軍機在埃因霍芬墜毀。” 9 分鐘後,美聯社釋出了更正宣告,稱,“更正:載有馬航 17 號航班墜毀事故遇難者遺體的荷蘭軍機降落在埃因霍芬。” 在美聯社釋出澄清宣告的 9 分鐘內,有 3818 個使用者“轉發”了虛假資訊[26]。2015 年 10 月 6 日,美聯社執行主編 Lou Ferrara 在接受每日秀高階記者 哈桑·米納吉 採訪時表示,這條虛假推文“是無意的,尤其是在如此糟糕的狀況下”[27]。這一錯誤歸咎於軟體新聞無法正確解構資訊。2015 年 3 月 16 日,美聯社發表了一篇文章,稱 羅伯特·杜斯特 在路易斯安那州因武器罪被捕,在洛杉磯因一級謀殺罪被捕。這篇文章正確地將羅伯特·杜斯特認定為被指控犯罪的人。然而,這篇文章使用了 弗雷德·杜斯特(樂隊 林肯公園 的主唱)的描述。在錯誤出版後的第二天,美聯社釋出了以下宣告;“美聯社錯誤地報道了羅伯特·杜斯特是樂隊成員。他是一位房地產繼承人;弗雷德·杜斯特是林肯公園的前任主唱”[28]。這些例子表明演算法錯誤如何導致虛假資訊的快速傳播。

托馬斯定理與行業鐵三角的延續

[edit | edit source]
鐵三角

托馬斯定理指出,呈現虛假資訊會導致不必要的行動。NLG 軟體的高出版率可以被群體用來推動虛假敘事或傳播有偏見的資訊。敘事科學聯合創始人克里斯蒂安·漢蒙德估計,到 2027 年,超過 90% 的新聞報道將由軟體撰寫。[29] 傳播虛假或有偏見的資訊使 NLG 軟體能夠淹沒反對意見。因此,這種軟體可以成為群體用來維護鐵三角的工具。 鐵三角 是一種自我強化的社會權力結構。常見的鐵三角由政府、利益集團和官僚機構組成。它有權塑造公眾輿論、選舉同情官員,並控制研究重點,以提升私人利益集團的地位。軟體新聞可以透過快速傳播海量資料和新聞來維護這種權力結構。結合當今媒體的普遍性,軟體新聞可以無休止地向媒體消費者灌輸大量單方面觀點、統計資料或意識形態。大量的材料可以模仿公眾對媒體消費者的共識。實際上,這種媒體可能是 NLG 軟體生成的經過人工放大的檢視。例如,一個競選活動可以使用軟體新聞來誤導選民關於對手候選人的資訊。普遍存在的、有偏見的資訊會影響公眾輿論,導致合格的候選人輸掉選舉。

概括和未來研究

[edit | edit source]

概括

[edit | edit source]

像任何技術一樣,自動化新聞的可能性為其使用者提供了新的力量。正如所討論的,傳播大量媒體內容的能力會極大地影響公眾輿論。NLG 軟體本身沒有內在的惡意動機。在壞人手中,它可以傳播虛假資訊、宣傳或其使用者希望傳播的任何其他內容。資訊可以用來教育和告知公眾,但也可能用來控制、引導或誤導他們。這直接關係到技術的潛在功能和顯性功能。

NLG 軟體對錯誤不具有魯棒性。像軟體新聞中使用的那樣的專業技術不是通用的。這種技術無法在沒有人工干預的情況下以有效的方式糾正錯誤。這種現象通常出現在自動化技術中。例如,機械化裝配線無法修復所有錯誤,需要人工質量控制。因此,自動化始終需要人工監督。

未來研究

[edit | edit source]

未來的研究人員可能會關注軟體新聞如何影響非文字媒體,如廣告,因為新聞不僅僅涉及文字敘述。另一個研究領域是人類記者對軟體新聞的反應以及被其取代的情況。軟體新聞改變了新聞的製作方式。因此,探索人類記者角色的變化將是值得的。自動化是軟體新聞的重要組成部分。研究人員可以探索自動化在歷史上的感知,以更好地瞭解軟體新聞的社會介面。

參考文獻

[edit | edit source]
  1. Pluscina, J. (2014, March 18). How an algorithm helped the LAT scoop Monday's quake. http://www.cjr.org/united_states_project/how_an_algorithm_helped_the_lat_scoop_mondays_quake.php
  2. The Los Angeles Times (2016). Frequently Asked Questions. http://homicide.latimes.com/about/
  3. Petchesky, B. (2011, March 30). We Heard From The Robot, And It Wrote A Better Story About That Perfect Game. http://deadspin.com/5787397/we-heard-from-the-robot-and-it-wrote-a-better-story-about-that-perfect-game
  4. Associated Press. (2015, July 15). Netflix misses Street 2Q forecasts. http://finance.yahoo.com/news/netflix-misses-street-2q-forecasts-202216117.html
  5. Diakopoulos, N. (2016). Accountability in Algorithmic Decision Making: A View from Computational Journalism. Communications of the ACM. http://towcenter.org/wp-content/uploads/2014/02/78524_Tow-Center-Report-WEB-1.pdf
  6. Graeffe, A. (2016, January 7). Guide to Automated Journalism. http://towcenter.org/research/guide-to-automated-journalism/
  7. Wright, A. doi:10.1145/2820421
  8. Narrative Science. (2016). Quill. https://www.narrativescience.com/quill
  9. Automated Insights. (2016). The Complete Getting Started Guide. https://wordsmithhelp.readme.io/docs/getting-started
  10. Automated Insights. (2016, July). Automating E-Commerce Content Creation. http://go.automatedinsights.com/rs/671-OLN-225/images/E-Commerce-Whitepaper-Ai.pdf
  11. Automated Insights. (2016). The Associated Press Leaps Forward. https://automatedinsights.com/associated-press-leaps-forward
  12. Automated Insights. (2016). Wordsmith Use Cases. https://automatedinsights.com/use-cases
  13. Automated Insights. (2016). Wordsmith Use Cases. https://automatedinsights.com/use-cases
  14. Automated Insights. (2016). Customer Data Makes Orlando Magic. https://automatedinsights.com/orlando-magic-case-study
  15. Automated Insights. (2016). Automated Insights. https://automatedinsights.com/
  16. Kotecki, J. (2016, August 15). Just How Good Can Wordsmith Content Really Be?. https://automatedinsights.com/blog/just-good-can-wordsmith-content-really
  17. Automated Insights. (2016). Automated Insights. https://automatedinsights.com/
  18. Miller, R. (2015, January 29). AP's 'robot journalists' are writing their own stories now. http://www.theverge.com/2015/1/29/7939067/ap-journalism-automation-robots-financial-reporting
  19. Automated Insights. (2016). Automated Insights. https://automatedinsights.com/
  20. Automated Insights. (2016). Bodybuilding.com's Automated Trainer. https://automatedinsights.com/bodybuilding-com-case-study
  21. Automated Insights. (2016). Customer Data Makes Orlando Magic. https://automatedinsights.com/orlando-magic-case-study
  22. Narrative Science (2016). Narrative Science. https://www.narrativescience.com/
  23. Clerwall, C. (2014, February 24). Enter the Robot Journalist: Users' perception of automated content. Journalism Practice, 8(5), 519 - 531.
  24. Graefe, A., Haim, H., Haarman, B., & Brosius, H. (2016, April 17). Perception of Automated Computer-Generated News: Credibility, Expertise, and Readability. doi:10.1177/1464884916641269
  25. New York Times. (2015 March 8th). Did a human or computer write this?,http://www.nytimes.com/interactive/2015/03/08/opinion/sunday/algorithm-human-quiz.htm
  26. RT News. (23 July 2014). Tweet Gone Wrong, https://www.rt.com/usa/175056-twitter-ap-mh17-victims/
  27. Aaron Sorkin. (2015 October 6). Robot Journalists. http://www.cc.com/video-clips/fh76l0/the-daily-show-with-trevor-noah-robot-journalists
  28. Sasha Goldstein. (2015 March 17). Accused killer Robert Durst misidentified in AP story as ‘former Limp Bizkit frontman’ Fred Durst, http://www.nydailynews.com/news/national/robert-durst-mixed-story-fred-durst-limp-bizkit-article-1.2152410
  29. Steven Levy. (2012 April 4). Can an algorithim write a better news story than a human reporter?, https://www.wired.com/2012/04/can-an-algorithm-write-a-better-news-story-than-a-human-reporter/
華夏公益教科書