大規模特征中變量選擇和模型使用

當壹個模型有幾千個特征時，這個時候如何進行特征選擇？

高維稀疏特征lr的效果優於gbdt。

每次根據當前節點的最大熵分割選取變量，高維稀疏數據集中很多“小而美”的數據都被丟棄。

比如妳買葉酸和壹些小品類的孕婦用品，這部分人半年後買奶粉的概率高達40%，但是葉酸和孕婦用品的銷量太少，用戶數不到全網的十分之壹。這個特征壹定是被樹算法拋棄了，即使這些特征很多很多。

理想情況下，將特性放入模型中，看看模型的性能是否有所提高，但這並不經濟。這需要很多時間。

是壹種啟發式方法，可以顯著減少我們需要學習的模型數量。我們從壹個空模型開始，然後在算法的每壹次叠代中，我們選擇壹個在添加到當前特征集時給出最佳性能的特征

有些變量單獨對結果並不重要，但和其他變量壹起可能會對結果產生影響，所以用向前向後的方式篩選變量並不好。

模型篩選變量的方式有問題。在樹模型中重要的變量在邏輯回歸中不壹定重要。

套索過濾變量會選擇壹組共線變量中的壹個，導致結果不穩定。當有壹組共線變量時，lasso傾向於選擇壹組，忽略其他組。

當特征數大於樣本數時，lasso只能選擇與樣本n相同的數據。

部分l1產生稀疏。

l2部分取消了對N個數的限制，鼓勵群體效應，穩定了l1正則性。

參考https://web.stanford.edu/~hastie/

在統計分析中，如果存在共線性，就無法區分它們對變量的影響。

所謂多重共線性是指預測變量之間的關系。當預測變量之間存在高度相關性時，會造成信息冗余，影響回歸模型的結果。檢測方法是計算所有預測變量對之間的相關系數。

1.決策樹篩選的變量之間的獨立性可能不夠，因為決策樹每次選擇變量時不會考慮變量與其他變量之間的相關性。因此，如果其他模型中自變量的相關性比較敏感，那麽在用決策樹選擇變量時，就需要檢查變量的相關性。

2.如果妳為回歸模型篩選變量，需要註意的是，決策樹篩選的變量和因變量之間的關系可能不是單調的，所以在回歸模型中可能不好用。這些變量可以被使用或離散化。

註意:

(1):如果訓練集中的樣本是分層抽樣，即每個類別在抽樣中所占的比例與原始數據不同，那麽模型結果顯示的屬於某壹類別的概率也是不準確的。這個時候概率排名是有意義的，但是概率本身是沒有意義的。

(2):用決策樹直接預測記錄屬於哪個類別並不容易，因為很多情況下，屬於某個類別的記錄比例特別低，而這個特別低的記錄比例就是用戶真正感興趣的記錄。需要根據預測的概率做進壹步的判斷。