1. 技術上的比較:百度在中文分詞技術上有壹定優勢,Google也在不斷改進中;Google從搜索準確性、多個關鍵詞相加的搜索速度上都很有優勢,百度缺不太理想;百度的蜘蛛抓取網頁的速度和效率很不理想,經常會占用大量帶寬,讓很多站長很無奈,想封又不敢封其IP ;網頁更新速度上Google顯然快很多,而百度竟然用加快網頁的更新速度做為加入百度搜索聯盟的獎勵; 防Spam上,Google 的pagerank技術無疑是很先進的,但是國人利用pagerank技術做垃圾SEO的不在少數,百度因為人工幹預強,垃圾SEO的存活時間不長,但是其競價排名缺嚴重幹擾了正常搜索結果。
2. 創新和品牌比較:Goole的創新精神壹直被稱道,譬如Gmail、Google Map、Google Talk等產品被網民贊嘆不已。百度也有創新比如“貼吧”,與傳統論壇和Google Group等有些不同,但是其中的垃圾信息很多,其匿名發貼的驗證碼至少改進了3次都不能有效防止spam。百度的MP3搜索不知道算不算創新,但給它帶來了30%的流量和品牌忠誠度,但也最終引火上身,Google卻很理智的不踏入此雷區。Google是國際品牌,有眾多語言版本和世界上最龐大的用戶群,百度是中文搜索的Local King(本土天王),有最多的中文使用用戶。百度的競價排名也算的上有中國特色的創新,但是這種創新讓少部分人高興而讓多數人討厭,Google信奉的Don’t be evil卻被更多人津津樂道(但願能真的壹直持續下去)。Google的Adsense/Adword算壹個巨大的創新,定向廣告效果很好,在給其他聯盟網站帶來利潤的同時也讓讓自己賺到了足夠多的Money。
3. 用戶忠誠度比較:雖然百度國內使用的人更多,但是個人認為Google的fans更鐵桿,百度如果收費的話,用戶可能會選擇其他的免費替代品。假如Google真的收費而且價格合理的話,相信很多科研人士、IT精英或貌似IT精英的人們會買單的,因為很多時候只有Google才能幫我們解決問題、找到答案。
個人希望(不知道切不切實際),百度不斷改進技術的同時Don’t be evil,盡快取消左側排名競價,用其他方式尋找盈利點,比如百度關鍵字匹配定向廣告。Google要多做壹些(但是絕不能接受閹割),在堅持自己原則的同時盡量本土化。
我之前無論是中文還是英文還是混搜,我都使用Google,也沒發現什麽太大的問題,只是偶爾從壹些文章了解到Google中文搜索不盡如人意,還舉出了很有名的“和服”的例子,人們也把這些問題歸因於Google對漢語分詞技術提供商選擇不力。當見到這些的時候,我也不以為然,可能是習慣吧,壹個人的習慣很難改變的。
今天我又壹次使用Google來查詢Oracle對多表更新的問題。我輸入了如下關鍵字:
“oracle update 多表”
總***560條記錄,除了第八項壹條相關之外,其余九條都不是驢唇不對馬嘴。我有些苦惱,難道偌大的中文網絡,關於這個信息的記錄就這麽少?我懷著試試看的心理用同樣的關鍵字百度了壹下。結果出乎意料,第壹頁中的第壹條就是我想要的,而且我的關鍵字只要稍換順序就可以命中這條記錄,Google怎麽就沒搜出來呢?
我又試了如下關鍵字:”Access 系統表”,”2005兩岸三地殘疾人駕駛汽車”,”占補平衡”,”張海迪”等幾個詞匯。其中第壹個”Access系統表”在百度中的結果比Google關聯性更好,第二個”2005兩岸三地殘疾人駕駛汽車”在百度中第二項,就可以查詢這個活動的專題網站,在Google中要在第四節才可見到這個網站。第三個“占補平衡”呢,百度能將“什麽是占補平衡”這樣的記錄排在第二條,而Google則在第壹頁不見這些概念解釋性記錄的蹤影,最後壹條人名搜索“張海迪”,Google搜索出來的看起來像壹個簡單的全文檢索,百度的則將介紹性文章排在了靠前的位置。
盡管只試了這麽幾條記錄,也許對於壹個嚴格的測試而言,遠遠不夠,但是我已經從心理上,在中文搜索以及混搜的心理上認同百度了。Google壹直都在說自己的數據量是如何大,但是對於搜索引擎而言,我想,提供有用的數據比提供量大的數據對用戶更有說服力。
我會繼續使用Google,因為其有量大的數據,對於英文搜索而言這是無與倫比的。但我也同時要百度,因為百度會讓我節省更多的時間和精力,不必要讓我再壹次對數據進行人工搜索才找出壹點有用的東西。
搜索引擎的技術也許從泛泛地而講也許並不高深,壹個數據庫加上壹個NetSpider就夠了。但是往深了講,對於排序,對於關聯度,對於中國這種需要分詞等等復雜的語言,就遠遠不是那麽簡單,Google進入了中國,但對於中文搜索市場的占領,看來還要做更多,也怪不得有人說,Google進入了中國,合並海量比合並百度更來得花算。。。
/" / 這個網址是搜索愛好者論壇的網址,上面有對各個搜索引擎的具體比較和經驗。下文是搜索引擎雅虎與AltaVista的比較。結合我自己使用的經驗來說,baidui要比google好用壹些,因為如果google不小心搜集到了壹些違法信息的話,五分鐘之內google好像就不能用了,而百度不會出現這個問題。以上是我幫妳查的資料和我的壹點經驗,希望能對妳有所幫助。
1、搜索引擎雅虎與AltaVista的比較
韓 蕓(中國人民大學圖書館 北京 100872)
摘 要 分析了搜索引擎:雅虎、AltaVista的基本功能和檢索方法,指出其
優點及缺陷,為更好地掌握和使用其他的搜索引擎提供借鑒。
關鍵詞 網絡 搜索引擎 情報檢索
深入地了解壹些有代表性的搜索引擎,可以舉壹反三,觸類旁通,更好地掌握和使用其他的搜索引擎。
以下是對兩個著名搜索引擎的剖析和介紹:雅虎——網站分類目錄的典範;AltaVista——網頁全文檢索的典範。
1 雅虎(Yahoo!)
雅虎是壹個以分類目錄、網站檢索為主,附帶網頁全文檢索的搜索引擎。
雅虎有中文、英文,以及法、德、意、西班牙、丹麥、日、韓等10余種語言版本,各版本的內容互不相同,如英文版主要收錄英文網站,日文版主要收錄日本及日文網站等,可以說,每壹個不同的版本都是壹個不同的、相對獨立的搜索引擎。
雅虎英文版除主站外,又有多個地區分站,如亞洲站 Yahoo in Asia、加拿大站 Yahoo! Canada 等,這些分站以收錄這壹地區的英文網站為主,也可視為獨立的搜索引擎。
以下我們專門介紹雅虎中文版。
1.1 版本
雅虎中文提供簡體中文(GB碼)和繁體中文(Big5碼) 兩個版本,但兩者內容相同。
1.2 收錄範圍
全球各地的中文網站,包括簡體、繁體和圖形中文網站。在同類搜索引擎中,它收錄的網站數目屬於較豐富者。
1.3 主要功能
(1)分類目錄
雅虎中文提供了壹份規範、科學、層次豐富的中文網站分類目錄。
此目錄的壹級類目(類別)有“社會科學”“商業與經濟”“新聞與媒體”等 14 個。點擊某壹類目,便可以進入這壹類別,看到這壹類別的二級類目(子類別),以及屬於這壹類別的網站。如,進入“商業與經濟”類後,會看到“國際經濟”、“管理學”等 30 余個二級類目,以及“雅虎中國財經”等網站。再往下,還可以有三級、四級子類目,最深在六級以上,如:區域/國家與地域/中國大陸/商業與經濟/新聞與媒體/雜誌。這樣,我們可以方便準確地找到網上有哪些中國商業雜誌網站。
雅虎的分類目錄提供交叉顯示,如:壹個計算機雜誌網站,既出現在計算機類別中,又出現在雜誌類別中。這可以使我們從不同的途徑,找到同壹個目標。
雅虎聲稱,它的分類目錄完全由人工完成,這使其目錄在歸類方面,較其他網站更為準確、合理。
在雅虎分類目錄中瀏覽而得到的資料,包括了網站名稱及網址鏈接、該站的簡介兩項基本內容。同時,簡體和繁體中文站是分別排列的,清楚地反映了某壹站點的語言版本。對於優秀網站和新增網站,加有標誌。此外,在每頁的頁末,還附有“Yahoo! 英文相關網站”的指引,鏈接到雅虎英文版的同壹類別中。
雅虎的網站簡介相當簡煉、嚴格,大多用很少字作客觀描述,沒有主觀評論和類似於廣告的誇張語言。這也是因其資料庫由人工整理而帶來的優勢。
此外,雅虎在首頁還提供了“新站”和“酷站”兩份目錄,收錄新登記的網站和雅虎認為比較熱門或優秀的網站。
(2) 網站檢索和附加的網頁全文檢索
雅虎提供了標準的檢索功能。其主頁上有壹個關鍵詞輸入框和搜索(Search)按鈕,我們可以填入要檢索的關鍵詞,並單擊搜索按鈕。在各分頁上(各子類別中),同樣有搜索框,稍有不同的是,各類別中的搜索框提供了3個條件限制選項。3個選項在雅虎簡體中文版中是:檢索所有網站,只檢索簡體中文網站,只檢索此目錄下的網站;在雅虎繁體中文版中是:檢索所有網站,只檢索繁體中文網站,只檢索此目錄下的網站。
雅虎中文還提供了為數不多的其他幾個檢索邏輯條件限制,如查詢甲詞或乙詞,只檢索網站而不檢索簡介等,使用方法可以在其檢索說明中查到。
在雅虎搜索中得到的反饋結果,有以下兩種情況:
a 資料庫中存在所查詢的關鍵詞:
這時雅虎會將找到的與關鍵詞相關的類別(如果有的話)和網站列舉出來。註意:這裏列出的資料往往是兩類,前壹類是雅虎的相關目錄類別,而不是網站,後壹類才是相關的網站。例如,當我們查詢“管理”壹詞時,反饋來的先是雅虎目錄中的20余個有關“管理”的類別,其後才是與“管理”相關的網站。
在反饋網站的同時,雅虎還提供了“相關網頁”和“相關新聞”的鏈接。擊“相關網頁”,可以自動轉向由另壹個搜索引擎 Openfind 提供支持的網頁全文檢索,繼續查詢先前妳要查找的那個關鍵詞。擊“相關新聞”,則轉向檢索雅虎新聞夥伴提供的相關新聞。
b 資料庫中沒有所查詢的關鍵詞:
此時雅虎並不給予提示,而是自動轉向 Openfind 提供支持的網頁全文檢索,將查到的相關網頁(註意不是網站)反饋回來。如果在網頁全文檢索中仍然找不到相關資料,這時才反饋壹個“沒有找到網頁符合檢索字串”的提示。
1.4 其他服務
新聞,財經等。
1.5 缺憾
(1) 許多網站沒有簡介,反饋信息中沒有網站註冊日期項。
(2) 個別網站分類有誤。
(3) 檢索反饋的結果多有重復,這是由於其目錄交叉顯示引起的。復雜條件查詢功能較弱。無法控制每次反饋網站的個數和排列方式等。
(4) 中文版的原始版本似為繁體中文,而簡體中文版是在此基礎上使用軟件自動轉換生成的。故簡體中文版個別地方出現以“□”代表的缺字。
(5) 英文版中許多非常出色的功能和服務,在中文版中未予提供。
2 AltaVista
AltaVista 是壹個以網頁全文檢索為主、同時提供分類目錄的搜索引擎。內容極其豐富,真正可以稱得上海量信息檢索。
AltaVista 提供中文、英文,以及日、韓、法、德、意、西班牙、俄等 20 余種語言的查詢服務。與雅虎不同的是,AltaVista 使用了專門的語言識別技術,使這些不同語言的網頁資料保存在同壹個資料庫中,從而以壹個龐大的搜索引擎,提供各種語言的搜索。其主頁面為英文。
AltaVista 還提供了7個地區性分站,如亞洲分站、加拿大分站等。這些分站的內容與主站不同,只收錄某壹地區的網頁資料,因此可視為獨立的搜索引擎。
以下我們主要分析 AltaVista 中文檢索的情況。
2.1 版本
提供英文、簡體中文、繁體中文頁面,在3種頁面中均可查詢中文。
2.2 收錄範圍
收錄全球範圍的簡體、繁體中文網站的網頁,數量在同類網站中名列前茅。
2.3 主要功能——網頁全文檢索
主站提供兩種方式進行中文網頁全文檢索。
(1)在簡體中文、繁體中文頁面中直接檢索。
(2)在英文主頁面進行中文檢索。
這裏不能直接使用漢字輸入關鍵詞,而只能使用與漢字對應的英文來查詢。例如,查找關於“經濟”的中文網頁資料,需要在右上方的下拉式菜單中選擇 Chinese(中文),在文字輸入框中輸入英文“economics”,擊 Search 按鈕,AltaVsta 會自動翻譯,把所查到的包含漢字“經濟”、以及英文“economics”等字樣的中文簡體、繁體網頁地址送過來。
在中、英文的搜索框中,都可以使用壹般的邏輯條件限制(如指定甲詞和乙詞、乙詞之外的甲詞等),它還提供了9個限定詞:anchor、applet、domain、host、image、link、text、title、url。在查詢框中輸入限定詞和冒號,以及所需要查詢的關鍵詞,可以得到所限定的信息。例如,輸入“film電影”,可以限定查詢標題中含有“電影”壹詞的網頁;輸入“image:diamond”,可以限定查詢含有diamond(鉆石)圖片的網頁(圖片的文件名中有“diamond”字樣)。這些限定詞的含義,在其幫助頁(英文)中有具體說明。
此外,AltaVista 還提供了Advanced(進階檢索),可以實現進壹步的復雜條件查詢,包括布爾邏輯條件、時間範圍等。不過,從其英文主頁搜索框右方 Advanced 鏈接進入的進階查詢,無法查詢中文,而需要從下列地址進入:
使用簡體中文時:
/cgi-bin/query?pg=aq