想學習機器算法,從哪裏入手?
監督學習
1.決策樹:決策樹是壹種決策支持工具,以及所使用的決策及其可能的後果,包括隨機事件的結果、樹形圖或資源消耗和效用的模型。
從商業決策的角度來看,決策樹是人們在大多數時候必須選擇是/否來評估做出正確決策的概率的問題。它讓妳以壹種結構化和系統化的方式解決問題,從而得出合乎邏輯的結論。
2.樸素貝葉斯分類:樸素貝葉斯分類器是壹種簡單的概率分類器,基於貝葉斯定理,其特征具有強(樸素)獨立性假設。
特征圖像是方程-P(A | B)是後驗概率,P(B | A)是似然,P(A)是擬先驗概率,P(B)是預測先驗概率。
壹些現實世界的例子是:
判斷郵件是否為垃圾郵件。
分類技術,新聞文章會有政治或體育氛圍。
檢查壹篇表達積極或消極情緒的文章。
面部識別軟件
3.普通最小二乘回歸:如果妳懂統計學,妳可能聽說過線性回歸。最小二乘法是壹種執行線性回歸的方法。
您可以將線性回歸視為通過點分布擬合直線的任務。有許多可能的策略可以做到這壹點。“普通最小二乘法”策略是這樣的——妳可以畫壹條線,然後把每個數據點相加,測量點和線的垂直距離;對於距離的總和,擬合線將盡可能小。
線性意味著您使用的模型迎合數據,最小二乘法可以最小化線性模型誤差。
4.邏輯回歸:邏輯回歸是壹種強大的統計方法,它使用壹個或多個解釋變量來模擬二項式結果。它通過使用邏輯函數估計概率來度量分類的因變量與壹個或多個自變量之間的關系,概率是累積的邏輯分布。
邏輯回歸用在生活中;
信用評級
衡量營銷活動的成功率
預測產品的收入。
有壹天會發生地震嗎?
5.支持向量機:SVM是壹種二元分類算法。給定N維空間中的兩類點,SVM生成(N-1)維超平面將這些點分成兩組。
假設妳在壹張紙上有兩種類型的點,可以線性分離。SVM會找壹條直線,把這些點分成兩類,盡可能遠離所有這些點。
在尺度上,SVM解決的壹些大問題(包括實現適當的修改)有:廣告、人類基因剪接位點的識別、基於圖像的性別檢測、大規模圖像分類。...
6.集成法:集成法是構造壹組分類器的學習算法,然後對新的數據點對其預測進行加權投票進行分類。最初的集成方法是貝葉斯平均法,但更新的算法包括糾錯輸出編碼、bagging和boosting。
那麽集成方法是如何工作的,為什麽它們比單壹模型更好?
平衡偏向:如果平衡大量傾向民主黨的選票和大量傾向共和黨的選票,總會得到壹個不那麽偏向的結果。
減少方差:當大量模型的參考結果被聚合時,噪聲將小於單個模型的單個結果。在金融領域,這叫分散投資)——原理——混合多種股票的投資組合,變化比個股少。
不太可能的過度擬合:如果妳有壹個不完全擬合的單壹模型,妳用壹種簡單的方式(平均、加權平均、邏輯回歸)組合每個模型,那麽過度擬合壹般不會發生。
無監督學習
7.聚類算法:聚類是對壹組對象進行分組的任務,使同壹組(簇)中的對象比其他組中的對象更相似。
每個聚類算法都是不同的,例如:
基於質心的算法
基於連接的算法
基於密度的算法
概率;可能性
降維
神經網絡/深度學習
8.主成分分析:PCA是利用正交變換將可能相關變量的觀測值轉換為線性不相關變量值作為主成分的壹組統計過程。
PCA的壹些應用包括壓縮、數據簡化、容易學習和可視化。請註意,在選擇是否繼續使用PCA時,領域知識非常重要。噪聲數據的情況(PCA的所有成分都非常不同)是不適用的。
9.奇異值分解:在線性代數中,奇異值分解是實復矩陣的因式分解。對於給定的m * n矩陣m,有壹個分解使得m = u σ v,其中u和v是酉矩陣,σ是對角矩陣。
PCA實際上是SVD的壹個簡單應用。在計算機視覺技術中,第壹種人臉識別算法利用PCA和SVD將人臉表示為“特征臉”的線性組合,降維,然後通過簡單的方法將人臉與身份進行匹配;雖然這種方法更復雜,但它仍然依賴於類似的技術。
10.獨立分量分析:ICA是壹種統計技術,用於揭示隨機變量、測量值或信號集的隱藏因素。ICA定義了觀測多元數據的生成模型,通常用作大樣本數據庫。
模型中假設數據變量是壹些未知潛在變量的線性混合,混合系統也是未知的。假設潛變量為非高斯獨立變量,稱之為觀測數據的獨立分量。
ICA與PCA有關,但它是壹種更強大的技術,可以在這些經典方法完全失效時找到潛在的源因素。它的應用包括數字圖像、文檔數據庫、經濟指標和心理測量。