教育輔助技術/語音識別軟體

教育輔助技術: 幫助所有學生成功

目錄 ·· 幼兒 ·· iPod 應用程式 ·· Android 應用程式 ·· Mac OS 可訪問性 ·· Windows 可訪問性 ·· Android 可訪問性 ·· 生活技能課 ·· 自閉症兒童（溝通） ·· 電子書閱讀器 ·· DAISY 有聲讀物 ·· 身體殘疾 ·· Proloquo2Go ·· 語音識別軟體 ·· 數學課 ·· 音樂課

簡介

以下資訊是網際網路上關於語音識別軟體的資料彙編。在介紹語音轉文字是什麼以及哪些型別的軟體可用之後，提供了它們在教育中的應用。

定義

語音識別，通常稱為自動語音識別或計算機語音識別，將口語轉換為文字。術語“語音識別”有時用於指識別系統針對特定說話者進行訓練的語音識別。大多數桌面識別軟體就是這種情況。因此，對於大多數桌面識別軟體來說，都包含一個說話者識別元素，它嘗試識別說話者，這有助於軟體識別正在說的話。語音識別是一個廣義的術語，這意味著它可以識別幾乎任何人的語音。例如，呼叫中心繫統旨在識別許多聲音。語音識別系統針對特定使用者進行訓練，它根據使用者獨特的語音識別他們的語音。^[1]

語音識別應用包括語音撥號（如許多手機內建的撥號），呼叫路由（如您在撥打呼叫中心時遇到的路由）^[2]，智慧家居裝置控制和基於內容的口語音訊搜尋（如政府使用的一種搜尋，用於拾取竊聽中所說的關鍵詞），簡單的資料輸入（如在電話調查中使用的輸入）^[2]，結構化文件的準備（如醫療報告），語音轉文字處理（如用於寫信或電子郵件）^[3]，以及飛機駕駛艙中的直接語音輸入）。^[1]^[4]

歷史

第一個語音識別器出現在 1952 年，它是一個用於識別單個口語數字的裝置 ^[5] ^[6]另一個早期裝置是 IBM Shoebox，在 1964 年紐約世界博覽會上展出。^[1]

在美國，語音識別商業應用最顯著的領域之一是醫療保健，尤其是醫療轉錄員 (MT) 的工作。據行業專家稱，語音識別 (SR) 在其最初階段被當作完全消除轉錄而不是提高轉錄效率的一種方式出售，因此未被接受。當時 SR 在技術上也存在缺陷。此外，為了有效地使用它，需要改變醫生的工作方式和記錄臨床遭遇的方式，而許多醫生（如果不是所有）都不願意這樣做。然而，語音識別自動轉錄的最大限制被認為是軟體。敘述性聽寫的性質具有很強的解釋性，通常需要人類才能提供的判斷力，而自動化系統目前還無法提供。另一個限制是使用者和/或系統提供者需要花費大量時間來訓練軟體。^[1]

ASR 中通常區分“人工語法系統”和“自然語言處理”，前者通常是特定領域的，後者通常是特定語言的。這兩種型別的應用程式都具有其各自的特定目標和挑戰。^[1]

軟體

微軟

Windows 語音識別是語音識別應用程式，包含在 Windows Vista 和最近的 Windows 7 中。^[7]

功能

Windows 語音識別允許使用者透過發出特定語音命令來控制電腦。該程式也可以用於文字聽寫，以便使用者控制他們的 Vista 或 Windows 7 電腦。^[7]^[6]

那些沒有明顯“命令”的應用程式仍然可以透過要求系統在介面元素上疊加數字來控制；隨後可以說出該數字以啟用該功能。需要在任意位置進行滑鼠點選的程式也可以透過語音控制；當要求這樣做時，會顯示一個包含九個區域的“滑鼠網格”，每個區域內都有數字。使用者說出數字，然後在選定區域內放置另一個包含九個區域的網格。這種操作會持續進行，直到要點選的介面元素位於選定的區域內。^[7]

Windows 語音識別具有相當高的識別準確率，並提供了一組有助於聽寫的命令。^{[需要引用]} 包含一個簡短的語音驅動教程，以幫助使用者熟悉語音識別命令。還可以完成培訓以提高語音識別的準確性。^[7]

目前，該應用程式支援多種語言，包括英語（美國和英國）、西班牙語、德語、法語、日語和中文（繁體和簡體）。^[8] 對其他語言的支援正在進行^[7]

歷史

1993 年，微軟從卡內基梅隆大學聘請了黃學東來領導其語音工作。微軟一直在進行語音識別和文字轉語音的研究。^[9] 該公司的研究最終導致了語音 API (SAPI) 的開發。^[7]

語音識別技術已應用於微軟的一些產品，包括 Microsoft Dictation（一個在Windows 9x 上執行的研究原型）。它還包含在Office XP、Office 2003^[10]、Microsoft Plus! for Windows XP、Windows XP Tablet PC Edition 和Windows Mobile（作為Microsoft Voice Command）^[11]。但是，在 Windows Vista 之前，語音識別並未成為主流。作為回應，Windows 語音識別與 Windows Vista 捆綁在一起並於 2006 年釋出，使該作業系統成為第一個提供完全整合的語音識別支援的微軟 Windows 主流版本。^[7]

技術細節

Windows 語音識別依賴於Microsoft SAPI 版本 5.3（包含在 Windows Vista 中）來執行^[9]。該應用程式還利用 Microsoft Speech Recognizer 8.0 for Windows 作為其語音配置檔案引擎。^[7]

蘋果

MacSpeech 是一家為Apple Macintosh 電腦開發語音識別軟體的公司。2008 年，其之前的旗艦產品iListen 被Dictate 取代，該產品現在基於Nuance 授權的Dragon NaturallySpeaking 引擎。MacSpeech 由現任執行長 Andrew Taylor 於 1996 年建立。^[12] MacSpeech 是唯一一家為 Macintosh 開發語音聽寫系統的公司。其完整的產品線致力於語音識別和聽寫。^[13]

第一個面向Mac OS X 的商業語音聽寫產品是IBM 的ViaVoice，但ScanSoft（擁有 ViaVoice 全球獨家分銷權的公司）與Nuance 合併，並停止了 ViaVoice 的 Macintosh 版本開發。（Mac OS 9 的第一個聽寫軟體是 Articulate System 的 PowerSecretary。）^[14]^[13]

在 2008 年MacWorld Expo 上，MacSpeech 新發布的 Dictate 榮獲 MacWorld 2008 年最佳展品獎。^[15]^[13]

Dragon NaturallySpeaking

Dragon NaturallySpeaking 是由Nuance Communications 為Windows 個人電腦開發和銷售的語音識別軟體包。Dragon NaturallySpeaking 的最新版本是 11.0 版，於 2010 年 8 月釋出。與之前的版本（10.1 版）一樣，該軟體包支援Windows XP、Vista 和7 的 32 位和 64 位版本。^[16]^[17]^[18] 此最新版本的四個版本分別是家庭版、高階版（以前稱為“首選版”）、專業版和法律版。Nuance Communications 聲稱這些最新版本比 Dragon 10 版本“開箱即用”的速度更快，準確率提高了 15%。[2]

功能

NaturallySpeaking 使用了極簡的使用者介面。例如，口述的單詞會以懸浮的工具提示形式顯示，當說話者暫停時，程式會將這些單詞轉錄到游標所在位置的活動視窗。該軟體具有三個主要功能領域：語音輸入、文字轉語音和命令輸入。使用者不僅可以進行語音輸入並將其轉換為文字，或者將文件合成音訊流，還可以發出命令，這些命令會被程式識別為命令。此外，語音配置檔案可以透過網路環境在不同的計算機上訪問，但音訊硬體和配置必須在兩臺機器上保持一致。^[19]^[18]

歷史

James 和 Janet Baker 博士於 1982 年創立了 Dragon Systems，釋出了以其語音識別原型為中心的系列產品。^[20] DragonDictate 首次釋出用於 DOS 系統，並利用了隱馬爾可夫模型，這是一種使用統計學方法進行語音識別的技術。當時，硬體功能不足以解決單詞分割問題，DragonDictate 無法在連續語音輸入過程中確定單詞邊界。使用者被迫一次只發一個音，每個音之間必須清晰地暫停。DragonDictate 基於三元組模型，被稱為離散語音識別引擎。^[21] ^[22]^[18]

Dragon Systems 在 1997 年釋出了 NaturallySpeaking 1.0 作為其第一個連續語音輸入產品。^[23] 之後，該公司在 2000 年 6 月被 Lernout & Hauspie 收購，該企業曾捲入財務醜聞，如《紐約時報》所報道的那樣。^[24] Lernout & Hauspie 破產後，Dragon 產品線的權利被 ScanSoft 收購。2005 年，ScanSoft 實際收購了紐昂斯通訊，並更名為紐昂斯。^[25]^[26]^[18]

其他軟體

您可以在維基百科上找到其他軟體，點選此處

教育應用

Dragon 語音識別高階版（以前稱為“Preferred”和“Professional”）解決方案符合美國殘疾人法案 (ADA) 第 508 條的要求。這些產品是紐昂斯通訊透過教育許可以“學術價格”提供給符合條件的教育個人和機構的眾多產品之一 (http://www.nuance.com/for-business/by-industry/education/education-validation/eligibility_definitions/index.htm)。此外，紐昂斯還提供各種軟體許可計劃，例如他們的開放許可計劃 (OLP)，以滿足大量需求。透過企業對企業關係的效率，其價值在於比桌面產品更具成本效益。

語音識別軟體廣泛應用於每個人，價格也相當合理。因此，教師需要考慮如何使用這種型別的軟體來增強他們的課程。使用這種型別的軟體可以改善學生教育的幾種方法，其中一些列舉如下。

幫助有身體殘疾的學生

幫助有身體殘疾的學生在課堂上取得成功對任何老師來說都是一項挑戰。找到讓這些學生與其他學生進行相同活動的方法需要花費很多時間，並且要求教師充分了解學生的侷限性。最具挑戰性的可能是始終牢記，這些學生仍然擁有與其他學生相同或更好的智力能力。

使用語音識別軟體可以讓肢體和手部活動能力有限或沒有的學生能夠像其他非殘疾學生一樣使用計算機制作打字報告、管理軟體和進行研究。^[27]

幫助有學習障礙的學生

有學習障礙的學生在學習方面會遇到各種各樣的困難。有些學生在閱讀和寫作方面有困難。儘管語音轉文字軟體無法幫助這些學生提高他們的拼寫能力，但它可以讓學生在寫作時不必擔心拼寫問題。讓學生把他們的想法寫下來可以幫助老師與學生一起改進他們的語法。改進學生寫作中的語法可以幫助學生糾正他們的口語語法。^[27]^[28]

對於許多能夠拼寫的有學習障礙的學生來說，打字過程會讓他們感到沮喪。因此，語音轉文字軟體可以幫助他們加快寫作速度。當有學習障礙的學生注意力難以集中時，坐下來打字寫論文會非常困難，因此這些語音轉文字軟體可以幫助這些學生將寫作提升到新的水平。^[27]^[28]

閱讀教學

語音識別軟體的進步創造了一個環境，學生可以在電腦上朗讀，電腦可以評估他們的閱讀能力。關於這種個性化學習方法的研究顯示出潛力，但軟體尚未達到完全教學所需的水平。目前的軟體需要教師的監督，以幫助有困難的學生。這項技術並不新鮮，它已經得到了改進，但它在過去所面臨的許多問題仍在克服中。 ^[29]^[30]這種技術的使用優勢在於，它讓教師能夠針對每個學生進行差異化教學，並允許閱讀水平較高的學生不被學習有障礙的學生拖累。 ^[31]

語言學習

語音識別軟體最具創意的用途之一是幫助語言學習。有語言軟體可以檢查學生說語言的能力。例如，學習西班牙語的學生可以被要求說出特定的西班牙語單詞。然後電腦可以評估他們正確說出這些單詞的能力。該軟體還可以透過將一段文字從他們的母語翻譯成西班牙語來發揮作用。在這種情況下，可以要求學生用母語默讀文章，然後告訴電腦西班牙語的表達方式。最後，該軟體可以用西班牙語跟學生說話，然後評估學生對原始語句的反應，以確定是否正確。在所有這些情況下，每個問題都必須被程式設計到電腦中。不過，未來電腦可能具備評估學生回答並用自己的定製回答進行回覆的能力。^[32]

未來設計

語音識別的未來充滿了無數的邀請。雖然這項技術已經存在了50多年，但軟體還有數百種潛在的應用和改進將要實現。一些即將出現的專案包括：可用於幫助語言障礙的通用翻譯器^[33]、改進的閱讀教學軟體、具有更好互動的一對一教學工具以及語音啟用的研究工具^[34]

語音識別最引人注目的可能性之一是，有一天電腦可能能夠理解我們的評論並用它們自己的想法進行回覆。在這一點上，語音識別可能會變成語音理解。 ^[3]想象一下，你對你的鬧鐘說“在早上6點叫我起床”，它會回覆你：“我剛連線了你的手機日曆，看到你明天的第一個約會是7點，從這裡到那裡需要30分鐘。你想在5點半起床嗎？”雖然這聽起來像科幻小說，但這種通訊和解釋的可能性今天就存在，它們只需要被整合在一起。

這個例子可以從這個影片中看到，它展示了一副紙質眼鏡可以變成音訊和影片錄製器，正如作者指出的那樣，最終這些眼鏡將能夠連線到我們的智慧手機，這樣我們就可以用眼鏡進行通訊，讓我們的電腦螢幕影像出現在眼鏡內部，然後我們可以透過語音命令操作顯示在眼鏡上的桌面環境，從而創造一個完全擴音、無處不在的電腦。 ^[35]^[36]

參考文獻

↑ ^a ^b ^c ^d ^e http://en.wikipedia.org/wiki/Speech_recognition
↑ ^a ^b http://www.lumenvox.com/company/edu/
↑ ^a ^b http://electronics.howstuffworks.com/gadgets/high-tech-gadgets/speech-recognition.htm
↑ http://cslu.cse.ogi.edu/HLTsurvey/ch1node4.html
↑ Davies , K.H., Biddulph, R. and Balashek, S. (1952) Automatic Speech Recognition of Spoken Digits, J. Acoust. Soc. Am. 24(6) pp.637 - 642
↑ ^a ^b http://www.microsoft.com/windowsxp/using/setup/expert/moskowitz_02september23.mspx
↑ ^a ^b ^c ^d ^e ^f ^g ^h http://en.wikipedia.org/wiki/Windows_Speech_Recognition
↑ Windows Speech Recognition in Windows Vista
↑ ^a ^b Talking Windows: Exploring New Speech Recognition And Synthesis APIs In Windows Vista
↑ Using speech recognition for the first time in Office - Help and How-to - Microsoft Office Online
↑ Speech Recognition for the Pocket PC :: May 2002
↑ MacSpeech - Speech Recognition Solutions for Mac OS - The MacSpeech Story
↑ ^a ^b ^c http://en.wikipedia.org/wiki/MacSpeech
↑ [1]
↑ Macworld | Editors' Notes | Macworld Expo Best of Show award winners
↑ "Nuance product support for Microsoft Windows Vista". Retrieved 2009-12-15.
↑ "Nuance product support for Microsoft Windows 7". {{cite web}}: Cite has empty unknown parameter: |1= (help)
↑ ^a ^b ^c ^d http://en.wikipedia.org/wiki/Dragon_NaturallySpeaking
↑ http://en.wikipedia.org/wiki/Dragon_NaturallySpeaking
↑ "Dragon Systems history". Retrieved 2010-02-03.
↑ "DragonDictate 產品資訊". 檢索於 2010-02-03.
↑ http://en.wikipedia.org/wiki/Dragon_NaturallySpeaking
↑ "Dragon NaturallySpeaking 1.0 釋出". 檢索於 2010-02-03.
↑ "Dragon Systems 被 Lernout & Hauspie 收購". 紐約時報. 2001-05-07. 檢索於 2010-02-03.
↑ "ScanSoft 和 Nuance 合併". 2005-05-09. 檢索於 2010-02-03.
↑ http://en.wikipedia.org/wiki/Dragon_NaturallySpeaking
↑ ^a ^b ^c http://www.rehabtool.com/forum/discussions/97.html
↑ ^a ^b http://www.sciencedirect.com/science?_ob=ArticleURL&_udi=B6VCJ-3XMGN91-3&_user=10&_coverDate=08%2F31%2F1999&_rdoc=1&_fmt=high&_orig=search&_sort=d&_docanchor=&view=c&_searchStrId=1215028011&_rerunOrigin=google&_acct=C000050221&_version=1&_urlVersion=0&_userid=10&md5=fc3ce5bd58895ec5faac3b22472080a2
↑ http://www.eric.ed.gov/ERICWebPortal/custom/portlets/recordDetails/detailmini.jsp?_nfpb=true&_&ERICExtSearch_SearchValue_0=ED292059&ERICExtSearch_SearchType_0=no&accno=ED292059
↑ http://www.eric.ed.gov/ERICWebPortal/custom/portlets/recordDetails/detailmini.jsp?_nfpb=true&_&ERICExtSearch_SearchValue_0=EJ738601&ERICExtSearch_SearchType_0=no&accno=EJ738601
↑ http://www.neirtec.org/reading_report/report.htm
↑ http://www.speechtechmag.com/Articles/Column/The-Human-Factor/Speech-Recognition-in-Education-Unexploited-Opportunities-29807.aspx
↑ http://ebiquity.umbc.edu/blogger/2006/11/01/darpa-speech-to-speech-research/
↑ http://www.worldthinktank.net/art128.shtml
↑ http://www.feld.com/wp/archives/2010/01/speech-recognition-is-only-part-of-the-future.html
↑ http://my.advisor.com/doc/05918

外部連結

[Wikipedia_Speech_Recognition-1] ↑ ^a ^b ^c ^d ^e http://en.wikipedia.org/wiki/Speech_recognition

[lumenvox-2] ttp://www.lumenvox.com/company/edu/

[How_Stuff_Works-3] ttp://electronics.howstuffworks.com/gadgets/high-tech-gadgets/speech-recognition.htm

[4] ttp://cslu.cse.ogi.edu/HLTsurvey/ch1node4.html

[5] Davies , K.H., Biddulph, R. and Balashek, S. (1952) Automatic Speech Recognition of Spoken Digits, J. Acoust. Soc. Am. 24(6) pp.637 - 642

[Speech_Recognition_with_Windows_XP-6] ttp://www.microsoft.com/windowsxp/using/setup/expert/moskowitz_02september23.mspx

[Wikipedia_Windows_Speech_Recognition-7] ↑ ^a ^b ^c ^d ^e ^f ^g ^h http://en.wikipedia.org/wiki/Windows_Speech_Recognition

[8] Windows Speech Recognition in Windows Vista

[msdn-9] Talking Windows: Exploring New Speech Recognition And Synthesis APIs In Windows Vista

[10] Using speech recognition for the first time in Office - Help and How-to - Microsoft Office Online

[11] Speech Recognition for the Pocket PC :: May 2002

[12] MacSpeech - Speech Recognition Solutions for Mac OS - The MacSpeech Story

[Wikipedia_MacSpeech-13] ttp://en.wikipedia.org/wiki/MacSpeech

[14] [1]

[15] Macworld | Editors' Notes | Macworld Expo Best of Show award winners

[64-bit_support-16] "Nuance product support for Microsoft Windows Vista". Retrieved 2009-12-15.

[17] "Nuance product support for Microsoft Windows 7". {{cite web}}: Cite has empty unknown parameter: |1= (help)

[Wikipedia_NaturallySpeaking-18] ttp://en.wikipedia.org/wiki/Dragon_NaturallySpeaking

[19] ttp://en.wikipedia.org/wiki/Dragon_NaturallySpeaking

[20] "Dragon Systems history". Retrieved 2010-02-03.

[21] "DragonDictate 產品資訊". 檢索於 2010-02-03.

[22] ttp://en.wikipedia.org/wiki/Dragon_NaturallySpeaking

[23] "Dragon NaturallySpeaking 1.0 釋出". 檢索於 2010-02-03.

[24] "Dragon Systems 被 Lernout & Hauspie 收購". 紐約時報. 2001-05-07. 檢索於 2010-02-03.

[25] "ScanSoft 和 Nuance 合併". 2005-05-09. 檢索於 2010-02-03.

[26] ttp://en.wikipedia.org/wiki/Dragon_NaturallySpeaking

[Use_of_Voice_Recognition_in_Special_Education-27] ttp://www.rehabtool.com/forum/discussions/97.html

[Secondary-28] ttp://www.sciencedirect.com/science?_ob=ArticleURL&_udi=B6VCJ-3XMGN91-3&_user=10&_coverDate=08%2F31%2F1999&_rdoc=1&_fmt=high&_orig=search&_sort=d&_docanchor=&view=c&_searchStrId=1215028011&_rerunOrigin=google&_acct=C000050221&_version=1&_urlVersion=0&_userid=10&md5=fc3ce5bd58895ec5faac3b22472080a2

[29] ttp://www.eric.ed.gov/ERICWebPortal/custom/portlets/recordDetails/detailmini.jsp?_nfpb=true&_&ERICExtSearch_SearchValue_0=ED292059&ERICExtSearch_SearchType_0=no&accno=ED292059

[30] ttp://www.eric.ed.gov/ERICWebPortal/custom/portlets/recordDetails/detailmini.jsp?_nfpb=true&_&ERICExtSearch_SearchValue_0=EJ738601&ERICExtSearch_SearchType_0=no&accno=EJ738601

[31] ttp://www.neirtec.org/reading_report/report.htm

[32] ttp://www.speechtechmag.com/Articles/Column/The-Human-Factor/Speech-Recognition-in-Education-Unexploited-Opportunities-29807.aspx

[DARPA-33] ttp://ebiquity.umbc.edu/blogger/2006/11/01/darpa-speech-to-speech-research/

[34] ttp://www.worldthinktank.net/art128.shtml

[35] ttp://www.feld.com/wp/archives/2010/01/speech-recognition-is-only-part-of-the-future.html

[36] ttp://my.advisor.com/doc/05918

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]