從標籤資料中學習映射函數
監督式學習是機器學習中最基本也是最重要的學習範式。演算法使用帶有標籤的訓練資料進行學習,目標是學習從輸入特徵到輸出標籤的映射函數。就像有老師指導的學習過程,訓練資料中的標籤就像是老師提供的「標準答案」,演算法透過比較預測結果與標準答案來不斷調整模型參數。
監督式學習的核心是建立一個模型,將輸入特徵映射到輸出標籤。訓練階段使用標籤資料計算損失,透過最佳化器更新模型參數。推論階段則使用訓練好的模型對新資料進行預測。
每筆資料由輸入特徵向量 x 和對應的標籤 y 組成:D = {(x₁, y₁), (x₂, y₂), ..., (xₙ, yₙ)}。
迴歸問題常用均方誤差(MSE):L = (y - ŷ)²。分類問題常用交叉熵損失(Cross-Entropy Loss),衡量預測分佈與真實分佈之間的差異。
梯度下降法:計算損失對參數的梯度,沿梯度反方向更新。隨機梯度下降(SGD):每次只用一筆資料計算梯度。Adam:自適應學習率,結合動量與 RMSProp。
輸出是離散類別。常見演算法包括 Logistic Regression、SVM、決策樹、隨機森林、神經網路。評量指標有準確率、精確率、召回率、F1-score、AUC-ROC。
輸出是連續數值。常見演算法包括線性迴歸、多項式迴歸、SVR、隨機森林迴歸。評量指標有 MSE、MAE、R²。
過擬合:模型在訓練資料上表現太好,但泛化到新資料時表現差。原因包括模型太複雜、訓練資料不足、資料有雜訊。
正則化:在損失函數中加入模型複雜度的懲罰項。L1 正則化(Lasso)產生稀疏解,L2 正則化(Ridge)控制權重大小。
交叉驗證:將資料分為 K 折,輪流用 K-1 折訓練、1 折驗證,有效評估模型泛化能力。
| 演算法 | 類型 | 特點 |
|---|---|---|
| 線性迴歸 | 迴歸 | 簡單、可解釋性強 |
| Logistic 迴歸 | 分類 | 輸出概率 |
| SVM | 分類/迴歸 | 核技巧、最大間隔 |
| 決策樹 | 分類/迴歸 | 可解釋、非線性 |
| 隨機森林 | 分類/迴歸 | 整合學習、抗過擬合 |
| KNN | 分類/迴歸 | 基於距離、無訓練 |
| 神經網路 | 分類/迴歸 | 深度架構、強大表達力 |