監督式學習 (Supervised Learning)

從標籤資料中學習映射函數

什麼是監督式學習?

監督式學習是機器學習中最基本也是最重要的學習範式。演算法使用帶有標籤的訓練資料進行學習,目標是學習從輸入特徵到輸出標籤的映射函數。就像有老師指導的學習過程,訓練資料中的標籤就像是老師提供的「標準答案」,演算法透過比較預測結果與標準答案來不斷調整模型參數。

學習框架

監督式學習的核心是建立一個模型,將輸入特徵映射到輸出標籤。訓練階段使用標籤資料計算損失,透過最佳化器更新模型參數。推論階段則使用訓練好的模型對新資料進行預測。

訓練資料

每筆資料由輸入特徵向量 x 和對應的標籤 y 組成:D = {(x₁, y₁), (x₂, y₂), ..., (xₙ, yₙ)}

損失函數

迴歸問題常用均方誤差(MSE):L = (y - ŷ)²分類問題常用交叉熵損失(Cross-Entropy Loss),衡量預測分佈與真實分佈之間的差異。

最佳化演算法

梯度下降法:計算損失對參數的梯度,沿梯度反方向更新。隨機梯度下降(SGD):每次只用一筆資料計算梯度。Adam:自適應學習率,結合動量與 RMSProp。

監督式學習的類型

分類(Classification)

輸出是離散類別。常見演算法包括 Logistic Regression、SVM決策樹、隨機森林、神經網路。評量指標有準確率、精確率、召回率、F1-score、AUC-ROC。

迴歸(Regression)

輸出是連續數值。常見演算法包括線性迴歸、多項式迴歸、SVR、隨機森林迴歸。評量指標有 MSE、MAE、R²。

過擬合與正則化

過擬合:模型在訓練資料上表現太好,但泛化到新資料時表現差。原因包括模型太複雜、訓練資料不足、資料有雜訊。

正則化:在損失函數中加入模型複雜度的懲罰項。L1 正則化(Lasso)產生稀疏解,L2 正則化(Ridge)控制權重大小。

交叉驗證:將資料分為 K 折,輪流用 K-1 折訓練、1 折驗證,有效評估模型泛化能力。

常用演算法

演算法類型特點
線性迴歸迴歸簡單、可解釋性強
Logistic 迴歸分類輸出概率
SVM分類/迴歸核技巧、最大間隔
決策樹分類/迴歸可解釋、非線性
隨機森林分類/迴歸整合學習、抗過擬合
KNN分類/迴歸基於距離、無訓練
神經網路分類/迴歸深度架構、強大表達力

相關連結