跳轉到內容

K-12 學校計算機網路/第 27 章

來自華夏公益教科書

有效利用搜索引擎

[編輯 | 編輯原始碼]

隨著網際網路的發展,全球資訊網徹底改變了資訊的可獲得性和訪問方式。數十億個網頁可以透過搜尋引擎瀏覽。人們通常開啟“谷歌”或“雅虎”來查詢他們想要的東西。對於學生來說,他們習慣於依靠搜尋引擎來幫助他們的家庭作業。然而,雖然每個學生現在似乎都知道如何使用網際網路,但現實是,很少有人知道如何有效地進行學術目的的搜尋。他們經常迷失在大量資訊中,最終這種缺乏訓練會導致糟糕的學校作業。

此外,學生傾向於依賴簡單的谷歌搜尋。他們不知道:(1)搜尋引擎如何確定其結果並對結果進行排名,(2)哪些來源更相關和可信,以及(3)除了谷歌之外,還有哪些專門的搜尋引擎存在用於收集可靠的資訊。本條目將概述搜尋引擎,並介紹一些搜尋技巧。技術協調員、教師和圖書管理員可以進行網際網路搜尋研討會,讓學生學習如何使用一些獨特的搜尋引擎來找到他們問題的答案。

搜尋引擎

[編輯 | 編輯原始碼]

本部分介紹了一些關於搜尋引擎的基礎知識。

什麼是搜尋引擎

[編輯 | 編輯原始碼]

網路搜尋引擎是旨在搜尋全球資訊網資訊的工具。搜尋結果通常以列表形式呈現,通常被稱為匹配項。資訊可能包括網頁、圖片、資訊和其他型別的檔案[1]

搜尋引擎是免費的。您無需為任何搜尋引擎付費。有 20-30 個主要搜尋引擎,例如谷歌、雅虎、Windows Live。但是,沒有一個搜尋引擎可以一次搜尋整個網路。有效地使用搜索引擎並非易事。您需要花費時間並使用不同的搜尋引擎進行練習,才能知道哪個最適合您的特定搜尋。

搜尋引擎是如何工作的

[編輯 | 編輯原始碼]

當搜尋引擎執行時,它按照以下順序執行:網路爬取、索引和搜尋。網路爬蟲或蜘蛛(一種自動網路瀏覽器,它會跟蹤它所看到的所有連結)會定期檢索數十萬個網頁。網路爬蟲將初始 URL 集放入優先順序佇列中,並獲取要下載網頁的下一個 URL。之後,它將提取下載頁面中的所有 URL,並將新 URL 放入佇列中,並重復此過程。但是,隨著某些網站中 robots.txt 的出現(一個檔案,它定義了每個頁面的內容應該如何索引),有一些例外。搜尋引擎將根據機器人檔案中的要求有條件地搜尋該網站。

在爬取之後,有關網頁的資料將儲存在索引資料庫中,以便將來查詢請求。不同的搜尋引擎具有不同的演算法來對資料庫中的網頁進行排名。它們將考慮資訊的相關性、可靠性和受歡迎程度,並始終優先考慮主要網站和快速變化的網站。當用戶在搜尋引擎中輸入查詢時,引擎會檢查其索引資料庫並提供最佳匹配網頁列表。列表中的專案通常包含一個簡短的摘要,其中包括文件的標題及其內容的一部分,以及指向此特定網站的 URL。大多數搜尋引擎支援使用布林運算子(AND、OR 和 NOT)來進一步指定搜尋查詢。一些搜尋引擎還提供高階搜尋來自定義搜尋過程。

元搜尋引擎

[編輯 | 編輯原始碼]

沒有一個搜尋引擎可以覆蓋整個網路。但是,有沒有可以同時搜尋多個引擎的搜尋引擎?答案是元搜尋引擎。

元搜尋引擎是一種特殊的引擎,它將使用者請求傳送到幾個其他搜尋引擎,並將結果聚合到一個列表中,或根據其來源顯示它們。元搜尋引擎使使用者能夠輸入一次搜尋條件,並同時訪問多個搜尋引擎。

元搜尋引擎本質上不是真正的搜尋引擎。它沒有編譯物理資料庫或網路目錄。相反,它接受使用者請求,將其傳遞給幾個其他資料庫,然後根據特定演算法以同質方式編譯結果。最著名的元搜尋引擎是 Dogfile。

搜尋引擎最佳化

[編輯 | 編輯原始碼]

搜尋引擎最佳化 (SEO) 在當今的網路中成為熱門話題。它是透過“自然”搜尋結果(與付費結果相比)從搜尋引擎中提高網站流量質量的過程。SEO 是搜尋引擎營銷 (SEM) 的一部分。SEO 專家會考慮搜尋引擎的工作原理以及人們搜尋的內容。最佳化網站將包括編輯其內容、重新設計其結構以及改進其 html 程式碼,以提高其與特定關鍵詞的相關性。

如何有效搜尋

[編輯 | 編輯原始碼]

本部分將介紹一些增強學生搜尋能力的特定技能。

搜尋引擎布林運算子一覽

[編輯 | 編輯原始碼]

大多數搜尋引擎和資料庫使用布林運算子來建立搜尋查詢。布林運算子包括 AND、OR 和 NOT。“AND”要求這兩個詞都應出現在檢索到的專案中。“OR”要求這兩個詞中的任何一個出現在檢索到的專案中,而“NOT”則排除一個詞。使用適當的布林運算子可以加快搜索過程並準確地定位搜尋物件。

有關更多資訊,請檢視 Google 搜尋基礎[2]

[編輯 | 編輯原始碼]

可以透過搜尋引擎的高階搜尋連結進行高階搜尋。谷歌和雅虎!這兩個最受歡迎的搜尋引擎都支援高階搜尋。我們可以直接從搜尋引擎的首頁訪問高階搜尋頁面。在該頁面中,我們可以設計我們的查詢並使其更有針對性,而無需瞭解任何搜尋語法。例如,我們可以要求搜尋結果的內容包含或不包含某些單詞;或者將所有搜尋結果限制在特定語言中。此外,我們可以定義搜尋結果的型別 - 所有結果都採用單詞、pdf、powerpoint 或 excel 格式。對於學生來說,如果他們想找到一些線上學習材料,最好搜尋副檔名為 ppt 和 pdf 的文件,因為大多數課堂講義都是由 Microsoft Powerpoint 和 Adobe Acrobat 生成的。這些檔案通常很有用。

如果我們知道要搜尋的檔案型別,也可以使用 Google 或 Yahoo! 中的特定搜尋頁面,例如 Google 圖片、Google 影片和 Google 圖書。

如果我們想要搜尋一些學術資訊,谷歌學術[3]將是一個有用的工具。它將搜尋來自學術來源的資訊,包括大學(.edu 網站)、研究中心(NASA、RAND 等)、政府、期刊和圖書出版商、圖書館館藏和數字材料(電子預印本、電子書)。

設計搜尋查詢

[編輯 | 編輯原始碼]

由於搜尋結果基於查詢,查詢語句越精確,找到的相關資料就越多。最常見的搜尋陷阱是搜尋範圍過廣。為了縮小範圍並提供特定的搜尋查詢,首先我們應該瞭解主題並知道我們在尋找什麼。然後嘗試根據這些知識制定專門的查詢。不要忘記使用布林運算子,並使用引號將搜尋限制在確切的短語中。雖然搜尋引擎會優先查詢確切的短語,但使用引號可以進一步限制搜尋。最好從現實情況開始搜尋,並準備好隨時更改查詢。也就是說,如果所需的結果沒有出現在前十或二十個搜尋結果中,請制定一個新的查詢並再次搜尋,然後制定另一個查詢,再製定另一個查詢。

如何評估搜尋結果的可靠性

[編輯 | 編輯原始碼]

由於任何人都可以在網上釋出任何內容,因此在網上查詢資訊有時就像當一名警探。有些網站將被證明是可靠的,而另一些網站則有不良動機。請記住,資訊只有與來源一樣好。我們應該知道如何評估資訊的完整性和識別相關且可靠的來源。

當我們透過搜尋引擎訪問“所需”文件時,嘗試找到以下問題的答案:作者或贊助商是誰?他們有什麼權力?頁面的目的是什麼?有一些技巧可以幫助我們評估特定網站/頁面的可靠性。

  1. 它是否包含作者的個人簡介?是否有一些關於該機構的資訊?
  2. 該來源可以聯絡嗎?它們是否信譽良好?
  3. 波浪號(~)可能表示個人頁面,它始終包含一些有用的資訊。
  4. 檢查 URL 的域名部分
      .com(商業) - amazon.com,可能會嘗試銷售某些東西
    • .edu(教育) - tc.edu,更可靠,可能是嚴肅的研究,但也可能是一個學生課堂專案 
    • .gov(政府) - uscis.gov,通常可靠 
    • .mil(軍事)– 通常可靠 
    • .net(網路)– 可能為客戶提供服務 
    • .org(組織)– unicef.org,通常是非營利機構,但有時可能存在偏見
  5. 頁面建立或上次更新的日期是什麼?有些資訊明顯過時了嗎?頁面中的連結是否有效?
  6. 檢查內容的準確性:是否存在任何偏差,事實是否可以驗證,是否存在來自官方來源的引用,其他人對作者或組織有何評價?
  7. 頁面的受眾是誰?它是針對公眾還是針對特定群體(例如學者或青少年)?
  8. 頁面的語氣是什麼(嚴肅還是幽默)?
  9. 如果可能,請嘗試比較和對比來自其他來源(印刷和線上)的相關資訊。

無論如何,請小心對待網路資訊。學會檢查假設和可能的偏見,區分事實和觀點。批判性思考,不要走捷徑。

主要搜尋引擎

[編輯 | 編輯原始碼]

四大搜索引擎是 Google、Yahoo、Ask.com 和 Windows Live。它們都不是全面的。他們的結果往往有很大重疊,但仍然有很多是獨一無二的。每個搜尋引擎都有不同的排名標準,因此結果排序不同。

    Google,最大的索引;以其排名系統 - PageRank 而聞名;擁有高階搜尋功能
  • Yahoo,Google 最大的競爭對手;根據受歡迎程度和相關性對結果進行排名;包含指向目錄的連結;擁有高階搜尋功能
  • Ask.com,根據“主題特定流行度”對結果進行排名;在執行初始搜尋後可以選擇高階搜尋
  • Windows Live,野心勃勃;在執行初始搜尋後可以選擇高階搜尋

瞭解錯誤訊息

[編輯 | 編輯原始碼]

我們經常被重定向到錯誤的連結。我們對此感到厭煩,但無能為力。瞭解這些常見錯誤背後的原因可能會讓我們感覺好些。

    錯誤 400:錯誤的請求
  • 錯誤 401:未授權
  • 錯誤 403:禁止
  • 錯誤 404:未找到
  • 錯誤 500:伺服器內部錯誤

在網上搜索沒有正確與錯誤之分。衡量搜尋是否成功的唯一有意義的標準是儘快獲得您想要的結果。所有搜尋引擎的工作方式都不相同。您在網際網路上查詢所需資訊的能力取決於您的查詢的精確程度以及您使用搜索引擎的有效性。

判斷對錯

  1. 所有搜尋引擎都使用相同的排名演算法。
  2. 元搜尋引擎的原理與通用搜索引擎不同。
  3. 來自組織網站(.org)的資訊比來自商業網站(.com)的資訊更可靠。
  4. 最好使用廣泛的查詢,因為它可以找到更多結果。

簡答題

  1. 搜尋引擎的一般排名演算法是什麼?
  2. 如何使用搜索引擎查詢 powerpoint 和 pdf 格式的文件?
  3. 搜尋引擎的兩種型別是什麼?
  4. 如何評估網站的可靠性?

判斷對錯:錯、對、錯、錯

簡答

  1. 不同的引擎工作方式不同。沒有通用的排名演算法。Google 使用 PageRank 對結果進行排名。Yahoo 根據受歡迎程度和相關性對搜尋結果進行排名。Ask.com 使用“主題特定流行度”對結果進行排名。
  2. 使用 Google 或 Yahoo! 首頁中的高階搜尋連結。您也可以在查詢中新增搜尋語法,例如:美國曆史 檔案型別:pdf。
  3. 關鍵詞搜尋引擎和目錄搜尋引擎。
  4. 單擊此處瞭解更多有關網路資訊評估的資訊。

參考文獻

[編輯 | 編輯原始碼]

Alexander Halavais。搜尋引擎社會。政治出版社。2009 年。
Sandy Berger。網際網路偉大時代指南。Que 出版社。2005 年。
http://en.wikipedia.org/wiki/Search_engine
http://en.wikipedia.org/wiki/Metasearch_engine
http://federatedsearchblog.com/2009/03/02/on-credibility-of-search-results/
http://www.mediapost.com/publications/?fa=Articles.showArticle&art_aid=101971
http://www.seochat.com/
搜尋引擎最佳化

華夏公益教科書