分類演算法 (Classification Algorithms)

根據輸入特徵將樣本分配到預定義類別的監督式學習方法

概述

分類是機器學習中最常見的監督式學習任務，目標是根據輸入特徵將樣本分配到預定義的類別中。廣泛應用於垃圾郵件檢測、疾病診斷、圖像識別、信用風險評估等場景。根據類別數量可分為二分類和多分類，根據類別是否互斥可分為單標籤和多標籤分類。分類演算法的發展從 1960 年代的感知機到現代深度學習，經歷了漫長的演進歷程。

邏輯回歸

邏輯回歸 (Logistic Regression) 雖名稱包含「回歸」，但實際上是分類演算法。它使用 Sigmoid 函數將線性組合映射到 [0, 1] 區間表示類別機率：P(y=1|x) = 1/(1 + e^-(w^T x + b))。Softmax 回歸將邏輯回歸推廣到多分類，透過 Softmax 函數輸出每個類別的機率分佈。邏輯回歸簡單、快速、可解釋性強，是分類任務的優秀基線模型。

支持向量機 (SVM)

SVM 找到一個最大化類別間隔的超平面。支援線性核、多項式核、RBF 核和 Sigmoid 核，其中 RBF 核最常用。核技巧 (Kernel Trick) 將數據映射到高維空間，使線性不可分的數據在高維空間中變得線性可分。SVM 在高維度數據上表現優秀、泛化能力強，但大資料集訓練較慢。參數 C 控制正則化強度，gamma 控制 RBF 核的影響範圍。

決策樹與集成學習

決策樹透過遞迴分割特徵空間來建立分類規則，使用 Gini 不純度或熵作為分裂標準。隨機森林透過自助採樣和隨機特徵選擇建構多棵決策樹，通過投票匯總預測，有效降低過擬合。梯度提升 (Gradient Boosting) 逐步添加決策樹來修正前一步的殘差，精度高但在 Kaggle 競賽和生產環境中廣泛使用。

演算法比較與評估

邏輯回歸：簡單快速適合線性問題；SVM：高維度表現好但大資料集慢；決策樹：可解釋但易過擬合；隨機森林：抗過擬合適合大型資料集；梯度提升：精度高但訓練時間長。分類評估使用混淆矩陣、精確率、召回率、F1 分數和 ROC-AUC。多分類評估可使用 macro/micro/weighted 平均策略。

概述

邏輯回歸

支持向量機 (SVM)

決策樹與集成學習

演算法比較與評估

相關連結