當前位置:股票大全官網 - 股票投資 - 大規模特征中變量選擇和模型使用

大規模特征中變量選擇和模型使用

當壹個模型有幾千個特征時,這個時候如何進行特征選擇?

高維稀疏特征lr的效果優於gbdt。

每次根據當前節點的最大熵分割選取變量,高維稀疏數據集中很多“小而美”的數據都被丟棄。

比如妳買葉酸和壹些小品類的孕婦用品,這部分人半年後買奶粉的概率高達40%,但是葉酸和孕婦用品的銷量太少,用戶數不到全網的十分之壹。這個特征壹定是被樹算法拋棄了,即使這些特征很多很多。

理想情況下,將特性放入模型中,看看模型的性能是否有所提高,但這並不經濟。這需要很多時間。

是壹種啟發式方法,可以顯著減少我們需要學習的模型數量。我們從壹個空模型開始,然後在算法的每壹次叠代中,我們選擇壹個在添加到當前特征集時給出最佳性能的特征

有些變量單獨對結果並不重要,但和其他變量壹起可能會對結果產生影響,所以用向前向後的方式篩選變量並不好。

模型篩選變量的方式有問題。在樹模型中重要的變量在邏輯回歸中不壹定重要。

套索過濾變量會選擇壹組共線變量中的壹個,導致結果不穩定。當有壹組共線變量時,lasso傾向於選擇壹組,忽略其他組。

當特征數大於樣本數時,lasso只能選擇與樣本n相同的數據。

部分l1產生稀疏。

l2部分取消了對N個數的限制,鼓勵群體效應,穩定了l1正則性。

參考https://web.stanford.edu/~hastie/

在統計分析中,如果存在共線性,就無法區分它們對變量的影響。

所謂多重共線性是指預測變量之間的關系。當預測變量之間存在高度相關性時,會造成信息冗余,影響回歸模型的結果。檢測方法是計算所有預測變量對之間的相關系數。

1.決策樹篩選的變量之間的獨立性可能不夠,因為決策樹每次選擇變量時不會考慮變量與其他變量之間的相關性。因此,如果其他模型中自變量的相關性比較敏感,那麽在用決策樹選擇變量時,就需要檢查變量的相關性。

2.如果妳為回歸模型篩選變量,需要註意的是,決策樹篩選的變量和因變量之間的關系可能不是單調的,所以在回歸模型中可能不好用。這些變量可以被使用或離散化。

註意:

(1):如果訓練集中的樣本是分層抽樣,即每個類別在抽樣中所占的比例與原始數據不同,那麽模型結果顯示的屬於某壹類別的概率也是不準確的。這個時候概率排名是有意義的,但是概率本身是沒有意義的。

(2):用決策樹直接預測記錄屬於哪個類別並不容易,因為很多情況下,屬於某個類別的記錄比例特別低,而這個特別低的記錄比例就是用戶真正感興趣的記錄。需要根據預測的概率做進壹步的判斷。