網絡爬蟲(Web crawler,也稱為web spider,web robot,在FOAF社區中,更常被稱為web chaser)是壹種按照壹定規則自動抓取萬維網上信息的程序或腳本。其他不常用的名字是螞蟻、自動索引、模擬器或蠕蟲。爬蟲自動遍歷網站的頁面並下載所有內容。
網絡爬蟲不常用的其他名稱有螞蟻、自動索引、模擬器或蠕蟲。隨著網絡的飛速發展,萬維網成為了大量信息的載體,如何有效地提取和利用這些信息成為了壹個巨大的挑戰。搜索引擎,如傳統的通用搜索引擎AltaVista、Yahoo!而谷歌作為輔助人們檢索信息的工具,成為用戶訪問萬維網的入口和向導。然而,這些通用搜索引擎也有壹些局限性,例如:
(1)不同領域、不同背景的用戶往往有不同的檢索目的和需求,通用搜索引擎返回的結果包含大量用戶不關心的網頁。
(2)通用搜索引擎的目標是覆蓋盡可能多的網絡,有限的搜索引擎服務器資源和無限的網絡數據資源之間的矛盾將進壹步加深。
(3)隨著萬維網數據形式的豐富和網絡技術的不斷發展,圖片、數據庫、音頻、視頻、多媒體等大量不同的數據出現,通用搜索引擎往往無力找到和獲取這些信息密集、結構化的數據。
(4)壹般的搜索引擎大多提供基於關鍵詞的檢索,很難支持基於語義信息的查詢。
為了解決上述問題,聚焦爬蟲應運而生,定向抓取相關的web資源。聚焦爬蟲是壹個自動下載網頁的程序。它根據既定的爬行目標有選擇地訪問萬維網上的網頁和相關鏈接,以獲取所需信息。與壹般爬行動物(壹般?Purpose web crawler),focus crawler不追求大覆蓋,旨在抓取與某個特定主題內容相關的網頁,為面向主題的用戶查詢準備數據資源。