決策樹 (Decision Tree)

樹狀結構的監督式學習模型,具高度可解釋性

概述

決策樹是一種樹狀結構的監督式學習模型,透過遞迴地選擇最佳特徵進行分裂,將資料劃分為越來越純淨的子集合。每個內部節點代表一個特徵上的判斷條件,每個分支代表條件的輸出,每個葉節點代表一個類別(分類樹)或一個數值(回歸樹)。決策樹的最大優勢是其可解釋性——我們可以將決策過程可視化為一系列「如果-那麼」的規則。

原理

決策樹的核心理念是「分而治之」。從根節點開始,選擇一個特徵和分裂條件,將資料劃分為多個子集合,這個過程在每個子集合上遞迴重複,直到達到停止條件。決策樹的學習過程核心問題是:每次分裂應該選擇哪個特徵?一般來說,我們希望每次分裂後,子集合的「純淨度」能夠提高。

不純度度量

剪枝與正則化

決策樹容易過擬合,需要通過剪枝來控制模型複雜度。預剪枝在樹生長過程中提前停止(限制最大深度、最小樣本數等),後剪枝先讓樹完全生長再合併葉節點。隨機森林通過集成多棵決策樹來進一步降低過擬合風險。

本課程範例

相關連結