語義網/願景
"語義網是當前網路的擴充套件,其中資訊被賦予了明確的含義,使計算機和人們能夠更好地協同工作。" - Tim Berners-Lee,James Hendler,Ora Lassila (2001)
根據全球資訊網聯盟 (W3C),只有當網路成為一個可以共享、處理和理解資料的地方,無論是自動工具還是人類,它才能充分發揮其潛力。為了使網路擴充套件,未來的程式必須能夠共享、處理和理解資料,即使這些程式是彼此獨立設計的。
語義網這一術語仍處於定義階段,對於許多人來說可能還很陌生,即使是在 IT 界。但它旨在解決的問題是我們幾十年來一直在努力解決的問題——諸如資訊過載、筒倉系統和內容聚合不良 (Daconta, Orbst, 和 Smith, 2003) 等問題。這些問題的根本原因是各個系統缺乏語義定義、資料集之間缺乏語義整合,以及不同系統之間缺乏語義互操作性。語義網超越了當前網路和現有資訊科技的能力,使更有效的協作和更明智的決策成為可能。它是一個智慧網站和資料儲存的集合,可透過一系列語義技術、概念框架和明確的互動協議進行訪問,使機器能夠完成更多工作以響應服務請求——無論是承擔重複的搜尋流程、提供更好的資訊相關性和置信度,還是執行智慧推理或代理。
然而,要達到這種狀態,可能需要花費數年時間。當然,在某些方面會取得快速進展,就像在推出低成本/免費網路伺服器和免費圖形瀏覽器後,很快出現了大量網站一樣。但網站開發的程序在六七年的時間裡相對混亂——從一組臨時的指令碼語言、低端工具和定製伺服器元件開始,逐漸發展到一組相對統一的核心語言、應用程式伺服器、內容管理系統、電子商務引擎、Web 服務以及其他企業級元件和產品。語義網的增長很可能經歷類似的市場動態演變。儘管互聯世界的商業模式已得到更好的理解,並且人們對新興 Web 技術的意識水平也得到了極大提高,但仍然需要相當長的時間才能將願景中的許多部分組裝起來。
1. 語義網不是一組新的、獨立的網站。
語義網是對現有全球資訊網的擴充套件,而不是一組獨立的新網站。它建立在現有全球資訊網的結構和拓撲之上,但透過定義機器可處理的資料和關係標準以及更豐富的語義關聯,增加了更多功能。現有網站可以使用這些結構來描述網頁中的資訊,以便外部流程(如搜尋引擎、蜘蛛搜尋技術和解析指令碼)更容易地訪問。此外,新的資料儲存,包括許多資料庫,可以公開並提供給機器處理,機器處理可以完成繁重的工作,以聯合查詢並在多種語法、結構和語義中整合結果。語義網背後的協議旨在對支援現有全球資訊網的現有技術保持透明。
2. 語義網的構建並非僅僅為了人類的訪問能力。
當前的網路主要依靠文字標記和資料鏈接協議來對資訊進行結構化和互聯,其程度非常粗糙。這些協議主要用於描述和連結以供人類閱讀的形式呈現的文件(但這些文件具有用於一階機器搜尋和聚合的有用鉤子)。語義網協議在更精細的級別上定義和連線資訊。含義以機器更容易理解和處理的格式表達,從而可以彌合數據儲存中的結構和語義差異。這種抽象和增強的可訪問性意味著可以增強和擴充套件當前的 Web 功能,並引入新的強大功能。
3. 語義網並非建立在未經測試的激進資訊理論之上。
語義網的出現是公認的資訊理論的自然發展,借鑑了知識表示和知識管理領域的理念,以及全球資訊網社群內修正後的思想。新批准的協議有著悠久的歷史,體現了許多計算機語言、資訊理論、資料庫管理、基於模型的設計方法和邏輯方面的熟練從業人員的理念。這些概念已在許多實際情況下得到證明,儘管 W3C 的統一標準集承諾加速和擴大企業和網路的採用。關於知識表示及其尚未實現的承諾,回顧歷史可以看到許多例子,證明統一標準為概念的接受提供了關鍵動力。HTML 來自 SGML,這是一種只有輕微流行的文字標記語言,然而 HTML 卻帶來了資訊科技使用的巨大變革。該領域的許多人指出,面向物件程式設計和概念到物理程式設計模型的接受時間都比較長。正如拉爾夫·霍奇森所說,“知識表示是一門基礎學科,現在擁有了一個基礎設施和一套支援標準,使其走出實驗室,進入實際應用。”
4. 語義網並非與當前資料建模概念有很大差異。
據蒂姆·伯納斯-李所說,語義網資料模型類似於關係資料庫模型。“關係資料庫由表組成,表由行或記錄組成。每個記錄由一組欄位組成。記錄只是其欄位的內容,就像 RDF 節點只是連線一樣:屬性值。對映非常直接——記錄是一個 RDF 節點;欄位(列)名稱是 RDF 屬性型別;記錄欄位(表格單元格)是一個值。事實上,語義網的主要驅動力之一始終是在網路上以機器可處理的方式表達大量的關係資料庫資訊。”(Berners-Lees,1998)也就是說,語義網是一種更具表現力、更全面、更強大的資料建模形式。它建立在傳統的資料建模技術之上——無論是實體-關係建模還是其他形式——並將它們轉換為更強大的方式,以更全面可理解的方式表達豐富的關係。
5. 語義網並非某種神奇的人工智慧。
機器可理解文件的概念並不意味著某種神奇的人工智慧,可以使機器理解人類的咕噥聲。它只是表明機器能夠透過對現有定義明確的資料執行定義明確的操作來解決定義明確的問題(Berners-Lee, Handler, 和 Lassila, 2001)。現在的搜尋引擎執行了 20 年前被認為是魔法的功能,但現在我們認識到這是 IP 協議、HTML、網站、網頁、連結、圖形瀏覽器、創新搜尋和排名演算法,以及大量的超高速伺服器和同樣巨大而快速的磁碟儲存陣列的結果。語義網的功能也同樣是資訊科技和知識表示的一系列邏輯互聯進展的結果,這些進展圍繞著共同的標準和方法基礎形成。
6. 語義網並非現有的實體,使用者可以隨時使用。
語義網目前只是一個願景,儘管它是一個充滿希望和引人入勝的願景。與現在的網路類似,語義網將透過開放標準和專有協議、框架、技術和服務的結合來形成。W3C 批准的標準——XML、RDF 和 OWL——構成了基本協議。新的資料模式和契約機制將圍繞利益共同體、行業和意圖構建,使用這些新協議;一些將由經驗豐富的資料架構師精心設計,並得到既定標準機構的正式認可;另一些將從無到有,並在一夜之間獲得廣泛認可。一系列新技術和服務將會出現,例如語義感知內容釋出工具;上下文建模工具;中介、推理和信譽引擎;資料清洗和詞典服務;以及新的身份驗證和驗證元件。儘管願景的各個要素已經存在,但這些技術的推廣、競爭力量之間的協調以及願景的實現需要很多年的時間。
雖然語義網的完整願景可能還很遙遠,但許多人認為,在不久的將來,將會出現一些功能,使企業軟體更加可連線、互操作和適應性強,並且維護成本大大降低。在現有和新興的基於語義的模式和工具中結合使用語義方法可以為許多企業和政府機構的 IT 專案帶來即時或短期效益。
例如,語義互操作性代表了語義網願景的一個更有限或更受限的子集。然而,透過使用基於語義的工具來仲裁和調解相對封閉且定義明確的領域內的結構、含義和上下文,以實現與資訊共享和資訊互操作性相關的特定目標,仍然可以獲得顯著的回報。換句話說,語義互操作性解決了一組更離散的問題,這些問題具有更明確定義的端點(Pollock 和 Hodgson,2004)。語義技術還可以為現有的 Web 服務和 XML 框架提供一個鬆散連線的覆蓋層,這反過來又可以提供比目前可用的更強的自適應能力。它們還可以立即幫助解決服務發現和協調問題,以及跨不同詞彙表協商請求和響應。考慮到聯邦、州和地方機構在這方面遇到的問題深度和難度,語義技術可能為解決這些問題提供第一個靈活、開放和全面的方法。
語義計算是一門正在形成和塑造的新興學科。因此,存在許多定義和解釋,甚至在思想領袖和實踐者之間還有一些低強度的哲學鬥爭。也就是說,RDF 和 OWL 作為 W3C 建議在今年早些時候釋出,為表達創造了更大的共識。
由於語義計算利用各種形式的抽象和邏輯表示式,因此可能難以理解這些語言如何提供前面部分中表達的許多強大功能。但就像網際網路和全球資訊網建立在協議和技術的層面上一樣,語義網也是如此。瞭解幾個關鍵概念並熟悉語義網的核心構建塊將為視覺化更高階工具、元件和技術如何實現更豐富和更靈活的機器可處理資料的承諾奠定基礎。瞭解一些基礎概念還可以讓讀者更好地瞭解技術現狀以及為了實現語義網的完整願景還需要改進的領域。
語義技術與資料庫模式、資料字典和受控詞彙表不同的一點是:它們的設計考慮了連線性,使不同的概念域能夠作為一個網路協同工作。
1. XML(可擴充套件標記語言)
XML 代表可擴充套件標記語言,是一種描述、傳輸和交換資料的標準方式,由 W3C 在 1990 年代後期開創。XML 作為一種透過使用自定義“標籤”來標記資料的機制,以便描述資料。XML 不一定與 HTML 相關,事實上,這兩者是為完全不同的目的而設計的。儘管如此,這兩個可以以各種方式相互補充,具體取決於使用者的需求。
標籤通常是資料的標籤,例如“FirstName”或“StreetAddress”。當嘗試使用 XML 定義標準的交換格式時,重要的是要就標籤達成一致。例如,兩家圖書供應商可能希望正式建立涉及資料交換的合作伙伴關係。在開始時指定供應商 A 對“作者”的定義與供應商 B 對“作者”的定義相同,並在 XML 結構中對其進行編碼,將是制定適當的資料協議的必要部分。也需要正式識別其他重疊且具有相同含義的術語,通常是在稱為 DTD 或 XML 架構的東西中。(XML 架構是一種以正式方式定義 XML 文件的機制,從而確保資訊準確交換。)
許多政府和行業登錄檔中都可以找到正在使用中的 XML 架構示例。根據美國 CIO 委員會 XML 工作組,“只有當組織使用相同的資料元素定義並且這些定義可供合作伙伴發現和檢索時,才能充分發揮 XML 的優勢。登錄檔/儲存庫是一種透過網際網路發現和檢索文件、模板和軟體(即物件和資源)的方法。登錄檔用於發現物件。它提供有關物件的資訊,包括其位置。儲存庫是物件駐留以供使用者檢索的地方。”
在語義和語義網的背景下,XML 是一組用於在特定領域建立語義豐富的標記語言的語法規則。XML 允許使用者為其文件新增任意結構,但對結構的含義不做任何說明(Berners-Lee、Hendler 和 Lassila,2001)。換句話說,雖然 IT 系統、資料庫和內容管理系統在描述事物方面變得很擅長,但它們在描述關聯方面做得並不好。需要更具體和更忠實的描述,以提供對詞語、術語和領域的更好理解。
2. RDF(資源描述框架)
RDF 代表資源描述框架,它專門設計用於提供這種關聯資訊。RDF 提供了使資料更豐富、更靈活的方法,因此能夠存在於系統程式設計師和資料建模者明確定義的環境之外。RDF 以三元組集的形式對資訊進行編碼,每個三元組都類似於一個基本句子的主語、謂語和賓語。(這種模型也可以表示資源、屬性和值結構。)RDF 提供了一個基礎設施用於連結分散式元資料,並且與 OWL 一起用作描述和表示本體的核心語言。
使用 RDF 描述資料關聯的主要優勢之一是它提供的可擴充套件性和靈活性。可以建立執行幾乎相同操作的顯式資料庫表,但 RDF 的獨特性質提供了一種靈活的機制,它允許更強大的關聯功能,從而提高對明確未硬編碼到表中的主題內容進行查詢和推斷的能力。當嘗試整合新的資料來源時,這些優勢只會增加,尤其是在它們具有不同的結構或語義時,或者更重要的是,當它們跨越概念域(例如環境和公共衛生資料或法律執法和情報資料)時。RDF 三元組以 XML 形式序列化,提供了一種使用 XML 標籤或其他語法以機器易於處理的格式描述資料元素之間關係的方法。為了支援鬆散耦合和/或虛擬架構,使用統一資源識別符號 (URI) 來標識每個三元組元素。URI 的目的是透過連結到定義概念的來源來唯一標識概念形式的主語、謂語或賓語。
RDF Schema(有時寫為 RDFS 或 RDF-S)提供了一種語義描述和擴充套件 RDF 的方法。它提供了描述相關資源組以及這些資源之間關係的機制。RDF Schema 對 RDF 的作用類似於 DTD 和 XML Schema 對 XML 的作用。在學術界和工業界,已經開發出許多用於 RDF 的查詢語言。2004 年 10 月,W3C RDF 資料訪問工作組釋出了 SPARQL(發音為“sparkle”)的草案規範,這是一種用於 RDF 的查詢語言,旨在統一開發人員和終端使用者編寫和消費 RDF 搜尋結果的方式範圍廣泛的資訊。
3. OWL(Web 本體語言)
OWL 代表 Web 本體語言。(縮寫詞有意從實際名稱中顛倒——OWL 而不是 WOL——作為對《小熊維尼》一書中貓頭鷹名字的有意識聯絡。)雖然 RDF 的主要價值可以體現在它能夠實現分散式資料的關聯和整合,但 OWL 的主要價值在於它能夠在分散式資料上進行推理。
OWL 是一種高度表達的建模語言,它與現有的資料儲存和建模結構相容,包括 XML、Rational 和麵向物件的方法。OWL 還提供資料鬆散耦合的“檢視”,這使得聯邦知識庫易於構建和演化。最重要的是,OWL 具有機器可操作的語義。執行時和設計時軟體工具可以在沒有人工干預或高度特定應用程式程式碼的情況下,對模型、資料、元資料、規則和邏輯做“事情”。(Pollock,2004)
OWL 源於許多開發一組靈活的計算邏輯結構的努力,其中許多努力可以追溯到很多年前。它是名為 DAML+OIL 的本體語言的下一代,它又整合了兩種努力,DAML 是 DARPA 標記語言,一項基於美國開展的努力,以及 OIL,本體推理層(或語言),一項基於歐洲開展的努力。它也根植於 SHOE(簡單 HTML 本體擴充套件),這項由馬里蘭大學的 James Hendler 領導的努力,專門用於將機器可讀的知識整合到 Web 文件中,從而促進智慧代理功能。定義了三種級別的 OWL(OWL Lite、OWL DL 和 OWL Full),每種級別都具有逐漸增加的表達能力和推理能力。建立這些級別是為了讓工具供應商更容易支援指定級別的 OWL。RDF 和 OWL 可以一起或單獨執行。在某些情況下,支援資料的分散式性質可能是主要目標,在這種情況下,可能只使用 RDF。在其他情況下,可能需要分佈和推理功能,因此可以使用 RDF 和 OWL。在其他情況下,只需要推理功能,因此 OWL 就足夠了。
4. 其他語言開發努力
目前正在開發其他語言來解決語義網願景中的額外層次。例如,規則語言將提供一種能力,以機器可處理的形式表達某些邏輯關係。這種語言將允許表達業務規則,並提供更強大的推理和推斷能力。RuleML最初被提議作為一種規則語言,儘管目前W3C正在努力將語義網規則語言(SWRL)形式化。邏輯語言將有可能提供一種通用機制來表達單調邏輯和驗證證明。一個長期的希望是最終利用來自網路各處的斷言來推匯出新的知識。(這裡的問題是演繹系統並不是特別地可互操作。與其設計一個單一的、無所不能的推理系統,當前的活動集中在為表示證明指定一種通用語言。然後,系統可以對這些證明進行數字簽名並匯出,供其他系統使用和合並。)
同樣,推斷信譽和信任的結構、模式和架構也在開發中,既有W3C內部的,也有更廣泛的網路社群的。這些方法不僅用於推斷個人之間的信譽和信任,還用於推斷群體(如公司、媒體來源、非政府組織和政治運動)、無生命物體(如書籍、電影、音樂、學術論文和消費產品),甚至是理念(如信仰體系、政治理念和政策建議)之間的信譽和信任。(Masum 和 Zhang,2004)該領域從業者面臨的一個挑戰是,建立具有足夠的表達能力的框架和語言來捕獲可以用模稜兩可的人類語言描述的知識。問題在於如何建立語言、工具和系統,既能支援簡單事物的輕鬆表達,又能使其能夠表達複雜事物。另一個挑戰是如何在處理與語法可讀性和人類可訪問性相關的問題時,保持與現有的語法標準(如HTML、XML和RDF)的相容性。最終,將開發出更好的工具來最大限度地減少這些問題,但在目前,某些高階語言中的複雜性可能會使使用當前編輯和建模工具開發完全符合規範的實現變得更加困難。
'"語義網工具每天都在變得更好。新公司開始成立。大公司開始行動。"'
-James Hendler
存在幾個模型描述了技術經歷的成熟度生命週期或階段。這些模型通常有四個階段:進入(或定義)、增長(或驗證)、成熟(或完善)和衰落(或整合)。從大多數衡量標準來看,語義網(以公開可用的格式體驗)仍處於進入/定義階段。然而,許多語義技術已經進入了增長/驗證階段。(向成熟的轉變往往難以捉摸;只有在事後才能看到臨界點,有時還會經歷一段炒作和未滿足的期望。)
政府和私營部門的技術應用領導者一直在開闢新的路徑,並從他們的語義實施專案中獲得了成功的結果。許多聯邦機構都有語義研究專案。語義產品來自像Adobe、惠普和IBM這樣的大型成熟公司,也來自許多像Unicorn、Network Inference和Semagix這樣的小型先鋒公司。此外,還有許多公共和私人研究機構和組織建立的開源和公開可用的工具。
以下是可用於建立由語義技術驅動的應用程式的商業和開源工具的簡要調查。理解這些工具如何協同工作的一種方法是將它們視為設計時工具或執行時工具。設計時工具由文件作者、系統設計師和其他人員在建立、設計或創作過程中使用。例如,用於建立元資料或建立或填充本體的工具。其他軟體元件用作執行時元件來處理查詢、轉換資料或以其他方式生成操作結果。例如,中介伺服器和推理引擎。許多工具在一個實現過程中作為一個集合使用——例如,設計時的建模和對映工具與執行時的查詢工具和中介伺服器相結合。
元資料釋出和管理工具
建立有關文件或資料項的元資料的過程可以在建立或創作該項時、將其匯入內容管理系統或網站時、或使用者檢視或讀取該項時發生。它也可以透過在該資料項存在過程中的任何時間進行的某些其他顯式或隱式操作來新增。換句話說,元資料建立不僅僅是一次性事件。元資料可以繼續積累,並且可以由任何數量的人在任何時候修改。
在內容建立時,作者通常會將諸如主題、建立者、位置、語言和版權狀態等資訊與特定文件相關聯。此資訊使文件更容易搜尋。RSS 本質上包含這種型別的資訊,為新聞閱讀應用程式提供了顯著擴充套件的搜尋和過濾資訊的功能。來自 SixApart 公司的 Moveable Type 是部落格社群中使用最廣泛的工具之一,用於建立符合 RSS 標準的文件。RSS 日益普及和簡單性使其使用範圍擴充套件到部落格社群之外,進入主流媒體,甚至進入企業。其他桌面和 Web 創作工具的供應商也正在迅速行動,提供 RSS 釋出功能。
建立元資料只是該過程中的一個步驟。需要元資料管理工具來維護元資料詞彙表、執行元資料驅動的查詢,以及提供用於監視感興趣區域的變化的視覺化工具。Flickr 是一個使用元資料作為建立協作和共享資料系統的關鍵方面的網站示例,該網站供人們輕鬆上傳和共享數字照片。與其他數字照片服務相比,它提供了照片標記功能,以及用於檢視照片類別的新穎介面。(標籤包含在圖中,並且大小根據標籤在資料儲存中的頻率而變化。)與早期的元資料實現相比,它的特點是反饋迴圈非常緊密,這意味著標籤的分配與它們的用法密切相關。一旦照片和照片集被標記,使用者就會看到帶有相同標籤的專案的叢集。使用者可以輕鬆更改標籤來細化叢集。在用於查詢元資料的工具方面,元件與當前搜尋引擎沒有什麼不同,儘管包含元資料使資料更豐富,因此搜尋更精確和相關。查詢指令碼和語言可能會適應以允許使用者更精確,儘管簡單性和功能之間的平衡始終處於不斷變化之中,尤其是在更公開可用的搜尋引擎中。然而,與上面的 Flickr 示例一樣,正在開發新的視覺化工具來幫助使用者瀏覽複雜的相關資料領域。
建模工具(本體建立和修改)
建模工具用於建立和修改本體。知識建模者使用它們來建立和編輯類結構以及建模域。這些工具通常具有與檔案系統目錄結構或書籤資料夾介面類似的介面。它們也往往提供匯入、轉換和重新利用(全部或部分)現有本體結構的能力,這些結構通常以資料庫模式、產品目錄和黃頁列表的形式存在。其他突出特點包括用於組織、匹配和關聯相似術語和概念的高階機制。
此外,由於建模者通常建立較小的互連本體,而不是單個大型單體模型(主要是為了提高可重用性和易用性),因此對分割、合併和連線模型的支援可能是本體編輯器中的一項重要功能。一些編輯器甚至支援協作工作方法、豐富的視覺化和圖形互動模式。Protégé-2000 是斯坦福大學開發的免費本體編輯器,擁有龐大而活躍的使用者社群。它具有開放的架構,允許獨立開發人員編寫外掛,這些外掛可以顯著擴充套件 Protégé 的功能。商業建模工具來自許多供應商,包括 Network Inference、Language and Computing 和 Intelligent Views。IBM 的本體管理系統(也稱為 SNOBASE,代表語義網路本體庫)是一個框架,用於從檔案和網際網路載入本體,以及用於本地建立、修改、查詢和儲存本體。在內部,SNOBASE 使用推理引擎、本體持久儲存、本體目錄和本體源聯結器。應用程式可以針對建立的本體模型進行查詢,推理引擎推斷出答案並返回類似於 JDBC(Java 資料庫存取連線)結果集的結果集。然而,在本文發表時,SNOBASE 並不相容 OWL。Sigma 本體開發和推理系統也是一個完整的本體管理系統。它可以免費許可,但與 SNOBASE 一樣,它也不符合 OWL 標準。
本體
獲得正確的本體通常是基於語義的專案成功實施的關鍵要素。與資料庫設計相比,本體建立是一個高度專業化的領域。不僅合格的從業人員數量還不夠多,而且找到一個能夠成功捕獲概念領域的本體可能需要相當長的時間。因此,重要的是要檢視現有的工作成果,這些成果可以用於(和重複使用),以避免從頭開始建立。現有的本體的可能來源通常可以在與本體建模工具緊密相關的地方找到,其中幾個工具已經在上面列出。使用專有本體可能取決於對建模工具的許可,考慮到開發本體所付出的努力,這種做法並非不合理。然而,其他本體可能是開放的,可以免費用於商業和非商業目的,與 Linux、JBoss、維基百科、Musicbrainz 和其他開源軟體和資料儲存庫類似。
當前的本體開發工作在範圍和規模上有所不同。一些本體專門為了滿足本地化實施而開發,例如協調賬戶圖表或醫療記錄,這些領域主要側重於資訊互操作性——在語法、結構和語義之間進行仲裁——而不是邏輯程式設計。其他本體開發工作採用自上而下的方法,假設對廣泛知識領域的共享檢視對於自適應計算和智慧推理能力的廣泛普及至關重要。在這些後者的圈子裡,對建立一個企業範圍的通用上層本體存在大量的倡導,他們認為它將為任何數量的領域本體提供基礎。新的領域本體可以是該上層本體的擴充套件,並完全符合該上層本體。現有的本體和遺留資料模型可以對映到該上層本體,理論上,這將構成朝著在域之間實現更高語義互操作性邁出的許多步驟。(然而,應該注意,仍然需要額外的開發和工程來證明這種方法的可行性和可擴充套件性。)
現在存在幾個候選的上層本體,包括 DOLCE(Gangemi 等人,2002)、Upper Cyc(Lenat,1995)和 SUMO(Niles 和 Pease,2001),但這些都沒有獲得顯著的市場採用。這種上層本體方法的支持者認為,如果美國國防部和/或聯邦政府採用其中一個候選者,那麼行業很有可能效仿,之後美國可以提議將其作為一項標準提交給國際標準化組織。
即使在沒有特定領域本體的情況下,也可以利用現有的分類法、XML標準或其他低階資料模型來啟動開發。在聯邦層面上,知識管理工作組(http://km.gov)在跨機構共享有關分類法專案的資訊方面取得了重大進展。XML.Gov(http://xml.gov)的使命是促進各機構有效利用XML,以便實現文件和資料的無縫共享。許多政府機構已經擁有現有的分類法,或者已經開始為其資訊領域開發分類法。例如,JusticeXML 是一項令人印象深刻的工作,可以透過 RDF 和 OWL 進行擴充套件和增強,以提供更靈活的資料模型,這將為其他機構更輕鬆地訪問聯邦、州和地方執法資訊鋪平道路。
對映工具(本體填充)
建立本體模型後,需要用資料填充它(在“本體語言”中稱為類例項)。這個過程通常透過使用對映工具將各種資料來源連結到本體中的概念來完成。一旦建立了“對映”,一個數據源中的查詢就可以透過其對映轉換為本體,然後從本體轉換為其他資料來源,使用它們的對映。然後可以以相同的方式返回相應的資料,而無需任何資料儲存知道或關心其他資料儲存。換句話說,每個資料來源可能都有一個唯一的“對映”到一個覆蓋本體,該本體充當各種源和目標之間的樞紐表。提供這個抽象層需要在建立本體和建立資料對映方面付出一些努力,但一旦完成,每個資料來源就可以在執行時過程中與其他資料來源互操作。在大多數情況下,將新的資料來源加入不會對現有資料來源產生任何影響。
這個過程極大地減少了使用當前企業應用程式方法(這些方法通常需要 n 平方對映(從每個資料來源對映到每個資料來源)或將資料匯出到硬編碼、不靈活和顯式的標準)通常進行的資料值對映和語義衝突解決。建模和對映過程使該過程更少政治化,更靈活和適應性更強。例如,單個數據源特有的異常可以幾乎透明地處理,而根據典型的標準過程處理此類異常將需要花費大量時間和精力。大多數用於處理結構化資料表單的工具都具有自動將資料庫欄位對映到本體的功能。Network Inference 和 Unicorn 是提供此類工具的兩個供應商。將非結構化資料表單聚合、規範化和對映到本體的工具通常使用各種非結構化資料表單,包括 Word、RTF、文字檔案和 HTML。Semagix 是非結構化資料的領先供應商。
資料儲存
本體和其他 RDF 資料模型可以儲存在本地 RDF 資料儲存中,也可以儲存在經過自定義以支援關聯資料技術的關聯資料庫中。本地 RDF 資料儲存從本質上設計為支援三元組的概念,並且可以提供一種高效的開箱即用方法來儲存本體。RDF 本地資料庫可從 Tucana Technologies 和 Intellidimensions 等公司獲得。還存在一些高質量的開源 RDF 資料儲存,包括 Kowari、Redland、Sesame 和 3Store。要使用關係資料庫,必須以某種非傳統方式設計資料庫。不是有一個表來描述每個主要概念,而是資料庫設計通常透過使用一個包含四列的表來模仿三元組的概念。三列儲存三元組,而第四列用於儲存其標識標籤。(一篇名為“使用 RDBMS 對映語義 Web 資料”的報告是瞭解在關係資料庫中實現三元組儲存的絕佳資源。)
與使用三元組(即 RDF)表示、儲存和查詢相關的 issues,以及在實現中使用和/或共存兩種型別的資料儲存的 issues,目前仍在行業和市場中自行解決。每個儲存和查詢設施都提供了目前另一個設施沒有的獨特功能。RDF 非常適合難以預測將來將執行的查詢型別的場景。它也非常適合處理元資料以及進行需要跨不精確或不同資料的推理的查詢。例如,諸如“今年有多少能源生產商符合‘綠色’標準?”的查詢,使用 RDF 查詢語言比使用 SQL 更容易執行(一旦建立了模型將各種資料儲存連線起來)。同時,在 SQL 中微不足道的查詢,例如“今年哪個能源生產商減少了最多的二氧化碳排放?”,使用 RDF 查詢語言可能非常複雜。
需要注意的是,RDF 查詢語言仍在發展,這在一定程度上可以解釋這種限制。RDF 的其他限制與效能 issues 相關。例如,由於查詢可以擴充套件到包括概念而不是僅僅是術語,因此搜尋空間可能會大幅增加。由於 RDF 資料儲存相對較新,實施數量相對較少,因此係統開發人員需要對其設計進行迭代,特別注意可能會對效能產生負面影響的查詢和函式。就行業增長而言,很難預測 RDF 將如何影響資料庫行業。RDF 資料儲存可能會保持其獨立的資料儲存類別,或者其功能可能會以類似於面向物件資料庫發生的情況的方式併入關係資料庫中。
中介引擎
中介引擎是自動化工具,可以使用模型而不是硬編碼的轉換程式碼,在不同的語法、結構和語義之間動態轉換資料。它們是任何互操作性架構的關鍵組成部分。使用資料對映、本體和其他形式的概念模型,中介引擎是執行時程序,在異構資料集之間提供抽象層,允許組織在如何表示資料和資訊方面達成一致。中介引擎通常使用高度結構化的資料。非結構化和半結構化資料必須首先繫結到架構,然後才能建立中介對映(Pollock,2004)。
推理引擎
推理引擎(有時稱為推理器)是軟體工具,可以從現有資訊中推匯出新的事實或關聯。人們常說,推理引擎模擬人類透過推理得出結論的能力。實際上,推理不是某種神話般的 AI 能力,而是在資料處理中一種非常普遍的方法。可以將複雜的資料探勘練習視為一種推理形式。透過建立資訊和關係模型,我們使推理器能夠根據模型得出邏輯結論。一個常見的推理示例是使用人和他們與其他人的聯絡模型來獲得新知識。探索這些網路圖可以推斷可能尚未明確定義的關係。請注意,僅使用 RDF 和 OWL,推理僅限於模型中表示的關聯,這主要意味著推斷傳遞關係。但是,透過新增規則和邏輯語言,可以實現概念理解、學習和適應方面的更大飛躍,儘管具有這些型別功能的實現還很少見。推理引擎的免費版本和商業版本都可用。例如,Jena 是一個開源的 Java 框架,用於編寫由 HP Labs 開發的語義 Web 應用程式,它具有推理器子系統。Jena 推理器包括一個通用的基於規則的推理引擎,以及為 RDFS 和 OWL Full 的 OWL-Lite 子集配置的規則集。JESS 是卡內基梅隆大學的流行 OWL 推理引擎。Network Inference 提供了一個基於描述邏輯(OWL-DL)的商業推理器。
其他元件
普通網頁是例項資訊的良好來源;許多填充本體的工具都是基於對網頁的註釋。W3C Annotea 專案提供免費的註釋工具。商業供應商包括 Ontoprise 和 Lockheed-Martin。包括 Semagix、Siderian Software 和 Entopia 在內的多家軟體供應商提供使用本體對資訊進行分類並提供改進的搜尋和導航的產品。
語義技術的應用
語義技術可以解決使用現有技術無法以任何價格解決的問題。
-Don Hall
語義技術可以在各種應用程式中提供關鍵優勢。從本質上講,語義方法是一種基礎設施能力,當與其他關鍵技術結合使用時,代表了下一波計算浪潮。從多年的角度來看,這些技術有望幫助 IT 行業實現始終難以捉摸的真正自適應計算的目標。從某些方面來說,未來已經到來。商業企業和政府機構正在使用現有的語義資料儲存、本體、工具集和應用程式實施生產級程式。這些近期專案領域包括語義 Web 服務、語義互操作性和智慧搜尋。
語義 Web 服務
[edit | edit source]Web 服務是一種軟體系統,旨在支援網路上可互操作的機器對機器互動。Web 服務具有使用 Web 服務描述語言 (WSDL) 以機器可處理的格式描述的介面。WSDL、UDDI 和 SOAP 的組合形成了一個三元組技術,它將整個市場轉向面向服務的架構 (SOA)。這些技術共同在 HTTP 或 SMTP 網路協議之上提供目錄、元件查詢和交換協議服務。微軟、IBM 和大多數其他大型軟體供應商都接受了 Web 服務模型的基礎概念和語言,越來越多的書籍和行業文章指出了採用面向服務的架構的好處。然而,Web 服務並非沒有缺點。安全性 issues 長期以來一直是一個問題,但近年來已經引入瞭解決這些 issues 的幾種解決方案。也許 Web 服務中最重要的改進機會仍然在於
(a) 靈活查詢和發現以及
(b) 資訊管理和模式轉換。
從根本上說,Web 服務技術以鬆散耦合的方式處理訊息,但它們目前沒有彌合描述術語的差異,也沒有從本質上使接收方能夠理解發送的訊息。對於 Web 服務,交換的這些部分依賴於自定義編碼的解決方案和/或對某種文件交換標準的廣泛社群一致(後者很少實現)。
這種確保靈活發現和服務啟動以及與 Web 服務交換的資訊的無縫執行使用方面的困難,導致 W3C 努力將其語義技術作為其語義 Web 服務計劃的一部分。語義 Web 服務是一種利用 Web 本體語言服務規範 (OWL-S) 來提供用於描述和啟動 Web 服務的靈活框架的 Web 服務實現。OWL-S 為 Web 服務提供者提供了一套核心標記語言結構,用於以明確的、計算機可解釋的形式描述其 Web 服務的屬性和功能。Web 服務的 OWL-S 標記將促進 Web 服務任務的自動化,包括自動 Web 服務發現、執行、互操作、組合和執行監控。遵循分層標記語言開發方法,當前版本的 OWL-S 建立在 W3C 的標準 OWL 之上。
正式地說,語義技術的應用使得描述交換資訊的邏輯本質和語境成為可能,同時最大限度地保持了通訊各方之間的獨立性。結果是,無論業務邏輯、流程和工作流程如何,資訊域之間都實現了更大的透明度和更動態的通訊(Pollock 和 Hodgson,2004 年)。
技術願景是,使用靈活的資訊模型而不是僵化的程式或程式碼來驅動動態、自愈和新興的基礎設施,以便在可大規模擴充套件的環境中共享關鍵任務資料。最近在分類法和詞庫技術、語境建模方法、推理技術和本體驅動的互操作性方面的進展可以應用於一個連貫的框架中,從而徹底改變資訊在分散、去中心化的知識社群中的管理方式(Pollock 和 Hodgson,2004 年)。
美國國家航空航天局 (NASA) 將語義互操作性視為一種極具潛力的方式,可以使所有利益相關者獲取資訊,而無需對特定格式或詞彙進行標準化,或重新鍵入資料庫以符合統一模型。NASA 使用這些概念的一個例子是解決與太空梭機隊老化佈線系統相關的嚴重且持續的維護問題。現有的佈線系統資料庫包含有關零件規格、物料清單、圖紙、變更單、標準做法、測試程式、測試報告、檢驗報告、故障跟蹤和報告資訊、工作單和維修處置文件的資訊。數十個不同的資料庫和系統(每個系統都支援工程和設計工作的不同但相關方面)正在 NASA 內部使用,相關資料分散在支援太空梭專案的幾家承包公司之間。對佈線問題進行故障排除需要及時訪問許多跨組織的系統、資料庫和知識庫,其範圍之廣令人望而生畏。對於診斷和解決飛行中的異常情況,情況尤為嚴重,因為及時的解決方法不僅是任務的關鍵,也是生命安全的關鍵。使這些資料集更加豐富,並使需要訪問它們的大量人員更容易訪問它們的工作仍處於起步階段,但正如本章開頭引用的內容所強調的那樣,語義技術代表了用當前資料整合方法解決這一在很大程度上無法解決的問題的最有希望的方式之一。
一個高度提煉的關於此類專案如何工作的版本如下。設計時工具用於開發包含特定領域的 RDF 和 OWL 模型。這些模型可以基於現有的 XML 標準,也可以透過其他方式定義。其他設計時工具可用於將特定資料表示靈活地對映到這些模型,從而無需顯式轉換應用程式以採用特定資料標準。執行時過程然後可以使用這些模型和對映作為資料透視表來將資料從源轉換到目標,或從單個查詢語句執行聯合查詢。這種型別的語義互操作性框架可以為更好地解決語法、結構和語義方面的差異提供堅實的基礎,從而開創一個未來,企業可以同意不同意,但仍可以共享資料並進行互操作,而無需更改其當前的運營方式。
使用語義互操作性方法的主要優勢之一是,它們並不一定需要替換現有的整合技術、資料庫或軟體應用程式。由各種基於語義的元件和應用程式程式設計介面 (API) 組成的語義框架可以與 Web 服務或傳統的中介軟體 API 部署,以利用現有的基礎設施投資,同時仍然透過虛擬集中透過網路基礎設施管道流動的查詢、轉換和業務規則元資料來提供巨大的優勢。因此,該軟體將以低安裝開銷、最少的編碼和最大的可重用性融入客戶現有的 IT 生態系統中(Pollock 和 Hodgson,2004 年)。
智慧搜尋領域在某些方面與語義互操作性相關。如上所述,語義互操作性技術可以使針對一個系統的查詢聯合到其他非本地系統。這消除了將系統轉換為通用查詢語言的需要,並使系統能夠繼續以其當前格式維護它們所擁有的資訊。透過在資料來源之上疊加一個虛擬層,可以以通用方式定義查詢,從而使訪問所有對映的資產成為可能。聯合搜尋還可以透過使搜尋在語義上更加精確來變得更加智慧。換句話說,搜尋可以擴充套件到包含概念,或者縮小到僅包含特定關鍵字。這種搜尋的深度(或粒度)使得能夠指定個人所需的搜尋。智慧搜尋的另一個方面是能夠透過利用身份和關係資訊使搜尋與搜尋者更相關。人與資訊之間的關係以及有關他們的資訊可以成為提高相關性和置信度的關鍵環節。儘管對知識管理系統的投資,但許多人仍然依靠他們個人的朋友、鄰居、同事和其他人的網路來尋找專家或尋找可信的資訊。人際關係在銷售情況以及許多組織互動中也很有用。社交網路模式和軟體正在廣泛使用這一點。
一個關於如何在大規模上使用此資訊的例子是,一家電話公司正在探索提供更智慧電話號碼查詢技術的方案。而不是提供匹配名稱的通用列表,電信公司正在考慮將搜尋者的資訊與可能的姓名列表相結合,以便提供更智慧的匹配。例如,推斷社交網路之間的關係可以提供有關一個人是否認識,或者是否可以預期認識另一個人(透過使用朋友的朋友形式的計算)的資訊。其他資訊,如地點、就讀的學校或過去或現在的職業,可以用來推斷匹配。當然,這涉及到重大的隱私問題;然而,許多人相信,諸如個人身份資訊雜湊和加密以及漸進式披露等技術很可能會解決許多隱私問題。用於實現智慧搜尋的語義方法開始進入知識管理系統。雖然當前的知識管理系統往往存在於它們自己的孤島中,並且難以跨越組織邊界,但智慧搜尋技術可以作為疊加層新增到現有的資訊基礎設施中,從而彌合物理資料格式、知識領域和組織結構之間的差距。