搜索引擎發展史在1990之前,沒有人能搜索到互聯網。
所有搜索引擎的鼻祖是由蒙特利爾麥吉爾大學的艾倫·恩塔奇、彼得·多伊奇和比爾·惠蘭於1990年發明的阿奇·常見問題集。雖然當時萬維網還沒有出現,但網絡中的文件傳輸相當頻繁。由於大量文件分散在各種零散的FTP主機中,查詢起來非常不方便,於是Alan Emtage等人想到開發壹個可以通過文件名查找文件的系統,於是Archie應運而生。Archie是第壹個在互聯網上自動索引匿名FTP網站文件的程序,但它不是壹個真正的搜索引擎。Archie是壹個可搜索的FTP文件名列表。用戶必須輸入準確的文件名搜索,然後Archie會告訴用戶哪個FTP地址可以* * *該文件。
受Archie受歡迎程度的啟發,內華達系統計算服務大學在1993中開發了壹個Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是後來的另壹個地鼠搜索工具。
機器人這個詞對程序員來說有著特殊的含義。計算機機器人是指壹種自動程序,它可以以人類無法達到的速度重復執行壹項任務。因為專門用於檢索信息的機器人程序像蜘蛛壹樣在網絡上爬行,所以搜索引擎的機器人程序被稱為蜘蛛FAQ程序。世界上第壹個蜘蛛程序,麻省理工學院馬修·格雷分校的萬維網漫遊者,被用來跟蹤互聯網發展的規模。起初,它僅用於統計互聯網上的服務器數量。後來,它被開發用於捕獲網址。
與Wanderer相對應的是,在1993 10年6月,Martijn Koster創建了Ali Web(Martijn Koster宣布Ali Web的可用性),這相當於Archie的HTTP版本。ALIWEB不使用互聯網搜索機器人。如果網站管理員希望他們的網頁被ALIWEB收錄,他們需要提交自己的每個網頁的介紹和索引信息,類似於後來眾所周知的Yahoo。
隨著互聯網的快速發展,檢索所有新網頁變得越來越困難。因此,基於Wanderer,壹些程序員改進了傳統蜘蛛程序的工作原理。其想法是,由於所有網頁可能都有到其他網站的鏈接,因此可以通過從壹個網站跟蹤所有網頁上的所有鏈接來搜索整個互聯網。到1993年底,壹些基於這壹原則的搜索引擎開始相繼出現。三個最著名的是:蘇格蘭的JumpStation、科羅拉多大學的Oliver McBryan開發的萬維網蠕蟲(McBryan的第壹個指令)和美國國家航空航天局開發的基於倉庫的軟件工程(RBSE)蜘蛛。JumpStation和WWW Worm只按照搜索工具在數據庫中找到匹配信息的順序對搜索結果進行排序,因此根本不存在信息相關性。RBSE是第壹個索引Html文件文本的搜索引擎,也是第壹個將關鍵詞字符串匹配度的概念引入搜索結果排名的引擎。
Excite的歷史可以追溯到2月1993。六名斯坦福大學學生的想法是分析單詞關系,以便更有效地在互聯網上搜索大量信息。到1993年中期,這個項目已經是壹個完全投資的項目Architext,他們還發布了壹個供網站管理員在自己的網站上使用的搜索軟件版本,該版本後來被稱為Excite for Web Servers。(註:Excite後來以概念搜索而聞名。2002年5月,被Infospace收購的Excite停止了自己的搜索引擎,轉而使用元搜索引擎Dogpile。)
1994 1月,推出了第壹個可搜索和瀏覽的目錄EINet Galaxy(trade wave Galaxy)。除了網站搜索外,它還支持Gopher和Telnet搜索。
1994年4月,兩位斯坦福大學的博士生楊致遠(楊致遠)和大衛·費羅(David Filo)共同創立了雅虎公司(Yahoo,1996)。隨著訪問量和鏈接數的增加,雅虎目錄開始支持簡單的數據庫搜索。因為雅虎!的數據是人工輸入的,所以不能真正歸類為搜索引擎。事實上,它只是壹個可搜索的目錄。漫遊者只抓取URL,但URL信息的內容量太小,單靠URL很難解釋很多信息,搜索效率很低。雅虎!由於網站中包含的網站都附有簡要信息,因此搜索效率明顯提高。(註:雅虎未來將使用Altavista、Inktomi和谷歌提供搜索引擎服務。)
1994年初,華盛頓大學計算機系學生布萊恩·平克頓啟動了他的小項目“布萊恩·平克頓宣布網絡爬蟲的問世”。4月20日,1994,網絡爬蟲僅包含來自6000臺服務器的內容。網絡爬蟲是互聯網上第壹個支持搜索文檔所有單詞的全文搜索引擎。在它之前,用戶只能通過URL和摘要進行搜索,這些通常來自手動註釋或自動提取文本前100個單詞的程序。(後來webcrawler先後被AOL和excite收購,現在使用Excite這樣的元搜索引擎Dogpile。)
Lycos(卡內基梅隆大學機器翻譯中心公告Lycos)是搜索引擎歷史上的另壹個重要進展。卡內基梅隆大學的邁克爾·莫爾丁將約翰·萊維特的蜘蛛程序與其索引程序連接起來,並創建了Lycos。7月20日,1994,數據量5.4萬的Lycos正式發布。除了相關性排名,Lycos還提供前綴匹配和字符相似性限制。Lycos是第壹個在搜索結果中使用網頁自動摘要的搜索引擎,其最大的優勢是遠遠超過其他搜索引擎的數據量:65438+8月0994-394,000個文檔;1995 1月-1.5萬文檔;1996 11個月-超過6000萬個文檔。(註:在1999年4月,Lycos停止了自己的蜘蛛,轉而由Fast提供搜索引擎服務。)
Infoseek是另壹個重要的搜索引擎。盡管該公司聲稱1994 1成立,但其搜索引擎直到年底才與公眾見面。起初,Infoseek只是壹個默默無聞的搜索引擎,緊隨雅虎之後。而Lycos,並沒有什麽獨特的創新。然而,它的發展歷史和隨後的口碑證明,壹開始第壹個上臺並不總是重要的。Infoseek友好的用戶界面和大量附加服務(如ups跟蹤、新聞、目錄等)使其日益出名。6月1995+2月65438日與網景公司的戰略協議使其成為壹個強大的搜索引擎:當用戶點擊網景瀏覽器上的搜索按鈕時,Infoseek的搜索服務就會彈出,而Yahoo!提供這項服務。(註:Infoseek後來以其相關性而聞名。2006年2月,Infoseek停止了自己的搜索引擎,開始使用Overture搜索結果。)
在1995中,出現了壹種新形式的搜索引擎:元搜索引擎綜述。用戶只需提交壹次搜索請求,元搜索引擎負責轉換處理後提交給多個預先選擇的獨立搜索引擎,獨立搜索引擎返回的所有查詢結果都經過收集和處理後返回給用戶。第壹個元搜索引擎是華盛頓大學的碩士生埃裏克·塞爾伯格和柳文歡·埃齊奧尼的元搜索引擎。元搜索引擎在概念上聽起來不錯,但搜索效果總是不盡如人意,因此從來沒有壹個元搜索引擎擁有強大的地位。
DEC的altavista(壹些網民需要從2001的夏天開始通過p-roxy訪問它,qbseach搜索AltaVista時沒有p-roxy可用,只能顯示搜索結果的第壹頁)是壹個後來者,直到1995(alta vista公測新聞稿)才出現。然而,大量的創新功能使其迅速達到當時搜索引擎的巔峰。Altavista最突出的優勢是其速度(搜索引擎9238:滑稽,altavista旨在顯示DEC Alpha芯片的強大計算能力)。
Altavista的其他新功能永遠改變了搜索引擎的定義。
AltaVista是第壹個支持自然語言搜索的搜索引擎,AltaVista是第壹個實現高級搜索語法(如and、OR、NOT等)的搜索引擎。).用戶可以使用AltaVista搜索新聞組並從互聯網上獲取文章,他們還可以在圖片名稱、標題、Java小程序和ActiveX對象中搜索單詞。AltaVista還聲稱是第壹個支持用戶向web索引數據庫提交或刪除URL的搜索引擎,它可以在24小時內啟動。AltaVista最有趣的新功能之壹是搜索所有帶有URL鏈接的網站。在面向用戶的界面上,AltaVista也做了很多創新。它將“提示”放在搜索框區域,幫助用戶更好地表達他們的搜索風格。這些提示經常更新,因此在搜索幾次後,用戶將看到許多他們可能永遠不會知道的有趣功能。這壹系列功能逐漸被其他搜索引擎廣泛采用。在1997中,AltaVista發布了壹個圖形演示系統LiveTopics,以幫助用戶從成千上萬的搜索結果中找到他們想要的內容。
然後是HotBot。1995 9月26日,加州伯克利分校CS助教埃裏克·布魯爾和博士生保羅·高蒂耶創立了Inktomi(UC Berkeley announcements Inktomi)。1996 5月20日,Inktomi公司成立,壹個強大的HotBot出現在世人面前。它聲稱每天可以抓取超過65438+1億頁的索引,因此有遠超其他搜索引擎的新內容。HotBot還使用cookie來存儲用戶的個人搜索偏好。(Hotbot是隨後幾年最受歡迎的搜索引擎之壹,後被Lycos收購)
Northernlight公司於9月在馬薩諸塞州劍橋成立,1995。8月,1997,北極光搜索引擎正式亮相。它曾經是擁有最大數據庫的搜索引擎之壹。它沒有停止詞。它有很好的時事新聞,有超過7,654.38萬份出版物的特殊收藏,還有很好的高級搜索語法。它是第壹個支持搜索結果簡單自動分類的軟件。(2002年6月5438日+10月65438日+6月6日,Northernlight公共搜索引擎被關閉,隨後被divine收購,但在Nlresearch中,當選擇“僅萬維網”時,Northernlight搜索引擎仍然可以使用。)
在1998 10之前,谷歌只是斯坦福大學的壹個小項目。1995年,博士生拉裏·佩奇開始研究搜索引擎設計,並於9月15日註冊了google.com域名,1997。在1997結束時,在謝爾蓋·布林、斯科特·哈桑和艾倫·斯特倫伯格的共同參與下,BachRub開始提供Demo。1999年2月,谷歌完成了從Alpha版本到Beta版本的轉型。谷歌將1998年9月27日視為其生日。
谷歌在集成搜索、多語言支持、用戶界面和其他功能方面的創新,如Pagerank、動態摘要、網頁快照、DailyRefresh、多文檔格式支持、map stock字典搜索,再次永遠改變了搜索引擎的定義,就像Altavista壹樣。
在2000年中期之前,谷歌因其搜索準確性而受到高度贊揚,但由於其數據庫不像其他搜索引擎那樣龐大,並且缺乏高級搜索語法,因此其使用價值不是很高,推廣速度也不快。直到2000年中期數據庫升級後,它才被雅虎選為搜索引擎。
fast(all the web)公司成立於1997,是挪威科技大學(NTNU)學術研究的副產品。1999年5月,谷歌發布了自己的搜索引擎AllTheWeb。Fast的目標是成為世界上最大、最快的搜索引擎,這已經接近它好幾年了。fast(all theweb)可按ODP自動分類網頁,支持Flash和pdf搜索,支持多語言搜索,還提供新聞搜索、圖像搜索、視頻、MP3和FTP搜索,具有極其強大的高級搜索功能。
Teoma源於1998年羅格斯大學的壹個項目。阿波斯托洛斯·傑拉蘇利斯教授帶領華裔教授楊韜等人在新澤西州皮斯卡塔韋創建了Teoma,於2006年春季首次亮相,並於2006年9月被Ask Jeeves收購,於2002年4月再次發行。Teoma的數據庫仍然很小,但它有兩個輝煌的功能:支持Refine類似於自動分類;同時,還提供了專業鏈接目錄資源。
懷斯曼由韓裔尹汝傑創立。測試版於2001年春季發布,正式版於2001年9月5日發布。2002年4月,它被分類目錄提供商looksmart收購。Wisenut還有兩個亮眼的功能:WiseGuide包含類似的自動分類和相關搜索詞;預覽搜索結果。
Gigablast由前Infoseek工程師馬特·威爾斯創建。2002年3月,展示了預測試版,測試版於2002年7月21日發布。Gigablast的數據庫目前還很小,但它也提供網頁快照。壹個特殊的功能是實時索引網頁,您的網頁壹提交就可以搜索到(註:垃圾郵件發送者的肉包子功能暫時關閉)。
Openfind成立於10月,其技術源於臺灣中正大學吳升教授領導的GAIS實驗室。起初,Openfind只是壹個中文搜索引擎。它曾經是最好的中文搜索引擎。在巔峰時期,它為新浪、奇摩和雅虎三大著名門戶網站提供中文搜索引擎,但在2000年後,市場逐漸被百度和谷歌瓜分。2002年6月,Openfind基於GAIS30項目重新發布了Openfind搜索引擎的測試版,推出了PolyRankTM,並宣布其已積累了35億網頁,開始進入英文搜索領域。此後,技術升級明顯加快。
北京大學“天網”是“九五”國家重點科技項目“中文編碼與中英文分布式信息發現”的研究成果。它由北京大學計算機系網絡與分布式系統研究室開發,於6月29日在CERNET上正式提供服務,1997。2000年初,天網搜索引擎新課題組成立,由國家973重點基礎研究與發展規劃項目基金資助開發,收錄網頁約6000萬個。利用教育網絡的優勢,它具有強大的ftp搜索功能。
百度2000年6月5438+10月,超鏈分析專利發明人、Infoseek前高級工程師李彥宏和他的朋友徐勇(加州伯克利博士)在北京中關村創建了百度公司。Baidu.com搜索引擎測試版於2001年8月發布(百度只為搜狐、新浪和Tom等其他門戶網站提供搜索引擎),百度搜索引擎於2001年10月22日正式發布。雖然百度只提供中文搜索,但它目前包含超過9000萬個中文網頁,這可能是最大的中文數據庫。百度搜索引擎的其他功能包括:網頁快照、網頁預覽/所有網頁預覽、相關搜索詞、錯字糾正提示、新聞搜索、Flash搜索和信息速遞搜索。Blitzen項目於2002年3月啟動後,技術升級明顯加快。
百度:中國版谷歌神話能走多遠?
中國搜索引擎公司百度於8月5日在納斯達克上市,發行價為27美元。盤中壹度突破150美元,最終收於122.54美元,漲幅高達353.85%。百度的出色表現使其成為在美國上市的外國公司中上市首日表現最好的股票。
百度上市首日表現強勁主要有兩個原因:
首先是谷歌的示範效應。投資者經常將百度與谷歌進行比較,認為該公司是中國版的谷歌。有分析認為,百度之所以如此受追捧,是因為它將中國和搜索結合在壹起。
全球最大的搜索服務提供商谷歌的上市價格也不到100美元,但自壹年前上市以來,其股價已超過300美元,這表明搜索市場潛力巨大。隨著互聯網在中國的迅速普及,網民數量迅速擴大,中國市場的廣闊性得到了外國投資者的普遍青睞。
其次,中國概念股的魅力。中國已經是世界上最大的計算機市場,並擁有世界上第二大互聯網用戶。我國網民規模已超過6543.8億。百度在這個市場占有很大份額。再加上人民幣升值,外國投資者普遍看好中國和搜索市場,因此百度將受到投資者的青睞。
回顧百度的發展歷史,該公司與盛大類似,也抓住了互聯網行業快速發展的機遇,找到了壹條適合自己快速發展的道路。
百度於1999年底在美國矽谷成立。其創始人,百度公司總裁李彥宏是信息檢索技術的資深專家和超鏈接分析專利的唯壹持有者。
在百度成立之初,該公司選擇了壹種與其他專業搜索引擎略有不同的商業模式:即與門戶網站合作,百度分割搜索訪問量。這種付費模式當時在門戶網站中相當流行,包括新浪和網易在內的所有主要門戶網站都采用了百度提供的服務。
但這種模式很快就顯示出其局限性。門戶網站數量有限決定了需求有限。2001年初,李彥宏借鑒了Overtu r e的“付費排名”搜索引擎商業模式。客戶通過購買關鍵詞和競價來決定他們在搜索結果中的排名,並通過上下文內容分析技術同時在其他頂級搜索引擎上投放廣告,與這些合作夥伴分享利益。從2002年到2003年,競價排名迅速成為百度收入的主要來源。2004年,百度80%的收入來自競價排名。
目前,百度是中國訪問量第二大、世界第六大網站。數據顯示,48%的中國互聯網用戶的搜索請求是通過百度完成的,因此百度被稱為全球最大的中文搜索引擎。根據艾瑞咨詢的數據,2004年中國搜索引擎行業市場規模為654.38+2.5億元,其中搜索引擎運營商收入為6.35億元,渠道代理商收入為6.2億元,百度占據了中國搜索引擎運營商28%的市場份額。獨特商業模式的成功使百度迅速成為中國搜索引擎的領導者。
由於中文的復雜性,百度的搜索技術非常復雜,該公司開發了專門的語言處理技術來處理類似的搜索結果。截至目前,百度已鏈接6.9億個頁面、8000萬張圖片和654.38+00萬個媒體文件。還包括新聞、貼吧等內容。
擔心市盈率對百度來說,上市首日的優異表現是壹個良好的開端。但“良好的開端是成功的壹半”,海外資本市場並不順利。從新浪、網易等先行者身上可以發現,其股價表現已有不少先例。以網易為例,它在2001年達到了0.51美元的最低價。資本殘酷的逐利本性決定了壹家公司壹旦達不到華爾街的預期,股價暴跌是極其正常的。
百度上市首日的優異表現和股價的快速上漲使其市盈率迅速脫離了市場平均水平。這成為未來股價表現的隱憂。壹旦公司的增長跟不上市場預期,可能會導致股價水平快速下跌。
百度2004年的利潤為1200萬元,收入為1.11億元。2003年虧損890萬元。2005年第壹季度,利潤猛增140%,達到250萬元。根據百度在招股書中公布的財務數據,百度股票發行價市盈率達到540倍,周五收盤價市盈率達到2450.8倍,相當驚人。作為對比數據,谷歌8月6日的市盈率為85.66倍。其他在納斯達克上市的兄弟網絡概念股市盈率基本在30至50倍之間。即使百度仍保持原來200%以上的業績增長,其當前股價仍被高估。
此外,百度在搜索領域並非無敵。谷歌長期以來壹直在窺探中國市場,眾所周知,它盯上了百度。目前,谷歌持有百度2.6%的股份,它在進入中國市場時將選擇合並或獨立發展。後續發展將影響百度的市場表現。盡管中文搜索的復雜性和本土文化的適應性使外資很難占領中國市場,但其資本實力和品牌優勢不容小覷。
至於百度的重要利潤來源“競價排名”也受到了質疑。這種通過競價排名來決定搜索排名的商業模式不利於搜索引擎的公正性和客觀性。信息幹擾的出現會降低網民對搜索的依賴。百度目前的MP3、圖片和* * *搜索等服務也面臨版權方面的法律糾紛。雖然不足以影響百度的大局,但對百度其他業務模式的推進仍帶來壹定阻礙。