當前位置:股票大全官網 - 基金投資 - 模式分析的核方法的前言

模式分析的核方法的前言

對數據模式的研究與科學研究壹樣有非常漫長的歷史。例如,考慮壹下在天文學上取得重大突破的約翰尼斯·開普勒(Johannes Kepler),他闡明了著名的三大行星運動定律,我們可以把這三個定律看做是開普勒從第谷·布拉赫(Tycho Brahe)編纂的大量的觀測數據中發現的關系。

同樣地,對於自動搜索模式的期望的歷史至少與計算壹樣漫長。人們運用許多科學方法和工程方法,比如統計學、機器學習和數據挖掘等等,已在著手處理這個問題了。

模式分析(pattern analysis)處理的是(自動)檢測和辨別數據中的關系這壹問題。在模式分析領域,大多數統計方法和機器學習方法都假定,數據以向量形式存在,關系可以被表達成分類規則、回歸函數或者聚類結構;人們通常把這些方法統稱為“統計模式識別”。“句法模式識別”或者“結構模式識別”則代表了另外壹種方法,其目的是從諸如串之類的數據中檢測規則,這些規則往往按照語法或等價的抽象形式存在。

模式分析自動化算法的發展,經歷了3次革命。20世紀60年代,引入了在向量集內檢測線性關系的高效算法,並分析了這些算法的計算行為和統計行為。1957年引入的感知機 (Perceptron)算法就是壹個例子。如何檢測非線性關系這壹問題,是那個時候的主要研究目標。盡管如此,開發具有相同效率水平的算法,並且保證該算法得到統計理論的支持,已被證明是壹個很困難的目標。

20世紀80年代,模式分析領域經歷了壹場“非線性革命”,幾乎同時引入了後向傳播多層神經網絡算法和高效的決策樹學習算法。盡管這些方法用到了啟發式算法和不完全統計分析,它們第壹次使得檢測非線性模式成為可能。非線性革命的影響怎麽強調都不過分:它激活了諸如數據挖掘和生物信息學的整個領域。然而,這些非線性算法,是建立在梯度下降法或貪心啟發式法的基礎上,因而受到局部極小化的限制。由於沒有很好地理解它們在統計上的行為,人們利用這些算法時還經常遇到過度擬合的問題。

模式分析算法發展的第三個階段發生在20世紀90 年代中期,當時出現了新的被稱為基於核的(kernel?based)學習方法的模式分析方法,該方法最終使得研究人員能夠高效地分析非線性關系,而這種高效率原先只有線性算法才能夠達到。該方法在統計分析方面進壹步發展之後,在高維特征空間內也能夠達到很高的效率,並且避免了過度擬合的危險。從各種角度,計算的、統計的和概念的角度來看,在這第三個階段發展起來的非線性模式分析算法,和線性算法壹樣,高效而富有理論根據。神經網絡和決策樹中典型的局部極小化問題和過度擬合問題,也已得到解決。同時,這些方法在處理非向量型數據方面非常有效,這樣就建立起了和模式分析的其他分支的聯系。

基於核的學習方法,首先以支持向量機(Support Vector Machine,SVM)的形式出現,支持向量機是壹種用來擺脫上面提到的計算和統計上的困難的分類算法。然而,很快就產生了基於核的算法,它能夠解決分類以外的問題。人們越來越清楚地認識到,這種方法引起了模式分析領域的壹場革命。這裏,全部的新工具和新技術,都由嚴格的理論分析所推動,在計算效率的保證下制造出來或發展起來。

此外,這種方法能夠消除不同的模式識別子學科之間存在的差距。它提供了壹個統壹的框架,來思考和操作各種類型的數據,不管它們是向量、串或更復雜的對象,同時也能夠進行多種類型的模式分析,包括相關、排列、聚類等等。

本書概括地介紹了這種新方法。我們試圖把壹個年輕的、茁壯成長中的研究團隊的10年深入研究,濃縮到本書的章節中。該團隊的研究者們已經壹起創造了壹個模式分析方法類,該類已成為從業人員工具箱的壹個重要部分。

本書介紹的算法能識別多種關系,從傳統的分類和回歸問題,到諸如排列和聚類等各種更專門化的問題,到包括主成分分析和典型相關分析的高級技術。而且,每壹個模式分析問題,都可以和本書最後壹部分論述的核函數庫中的壹類函數結合起來應用。這就意味著這種分析可以用於多種數據,從標準向量類型,到更復雜的諸如圖像和文本文檔等對象,到與生物序列、圖和語法相關聯的高級數據類型。

基於核的分析,對於數學家、科學家和工程師來說,是壹個強大的新工具。它提供了非常豐富的方法,可以應用在模式分析、信號處理、句法模式識別和其他模式識別(從樣條到神經網絡)領域。簡而言之,它提供了壹個嶄新的視角,我們仍然遠沒有了解它的全部潛力。

本書作者參與了基於核的學習算法的發展,對於這壹方法的理論、實現、應用和普及,做出了許多貢獻。他們的著作《An Introduction to Support Vector Machines》已經被許多大學當做教科書和研究參考書使用。作者也在壹個由歐洲委員會(European Commission)資助的工作組的機構中,協助“神經和計算學習(NeuroCOLT)”研究,這個工作組在定義新研究日程和“圖像和文本的核方法(KerMIT)”項目中起到了重要作用,而該項目已經應用於文檔分析領域。

作者要感謝很多人,他們通過參加討論、提出建議,或在許多情況下給予了非常詳細和富於啟發意義的反饋信息,對本書做出了貢獻。特別感謝Gert Lanckriet、 Michinari Momma、Kristin Bennett、Tijl DeBie、Roman Rosipal、 Christina Leslie、Craig Saunders、Bernhard Scho··lkopf、 Nicolò Cesa?Bianchi、Peter Bartlett、Colin Campbell、William Noble、 Prabir Burman、Jean?Philippe Vert、Michael Jordan、Manju Pai、Andrea Frome、 Chris Watkins、Juho Rousu、Thore Graepel、Ralf Herbrich和David Hardoon。作者還要感謝歐洲委員會和英國基金理事會EPSRC對他們基於核的學習方法的研究的支持。

Nello Cristianini是加州大學戴維斯分校(UC Davis)統計系的助理教授。Nello要感謝加州大學伯克利分校(UC Berkeley)的計算機科學系和Mike Jordan,感謝他們在2001年~2002年Nello任訪問講師期間對他的款待。他也要感謝麻省理工學院的基於計算機的學習中心(MIT CBLC)和 Tommy Poggio 2002年夏天對他的款待,以及為他提供了理想的環境來寫這本書的加州大學戴維斯分校(UC Davis)的統計系。本書的許多結構以Nello在加州大學伯克利分校、戴維斯分校講授的課程和講義為基礎。

John Shawe?Taylor是南安普頓大學(University of Southampton)的計算科學教授。John要感謝倫敦大學皇家霍洛威學院(Royal Holloway)計算機科學系的同事們。在寫作本書的大部分時間,他都在那裏工作。