用Python進行梯度提升算法的參數調整

feifei2588 9年前發布 | 13K 次閱讀算法 Python Python開發

或許之前你都是把梯度提升算法(Gradient Boosting Model)作為一個“黑箱”來用，那么現在我們就要把這個黑箱打開來看，里面到底裝著什么玩意兒。

提升算法(Boosting)在處理偏差-方差權衡的問題上表現優越，和裝袋算法(Bagging)僅僅注重控制方差不同，提升算法在控制偏差和方差的問題上往往更加有效。在這里，我們提供一個對梯度提升算法的透徹理解，希望他能讓你在處理這一問題上更加胸有成竹。

這篇文章我們將會用Python語言實踐梯度提升算法，并通過調整參數來獲得更加可信的結果。

提升算法是一個序列型的集成學習方法，它通過把一系列弱學習器集成為強學習器來提升它的預測精度，對于第t次要訓練的弱學習器，它會更加重視之前第t-1次預測錯誤的樣本，相反給預測正確的樣本更低的權重，我們用圖來描述一下：

圖一：生成的第一個弱分類器
- 所有的樣本擁有相同的權重(用大小表示)。
- 決策邊界成功預測了2個+樣本和5個-樣本。
</li>
圖二：生成的第二個弱分類器
- 在圖一中被正確分類的樣本給予了一個更小的權重，而錯分類樣本權重更大。
- 這個分類器更加重視那些權重大的樣本并把它們正確分類，但是會造成其他樣本的錯分類。