← 回到機器學習

聚類演算法 (Clustering)

將相似資料點分組的非監督式學習方法

概述

聚類（Clustering）是非監督式學習的核心任務之一，目標是將資料集中的樣本劃分為若干個群組（簇），使得同一簇內的樣本相似度高，不同簇間的樣本相似度低。聚類分析廣泛應用於客戶細分、影像分割、生物資訊學、異常檢測和資料壓縮等領域。

K-Means

K-Means 是最經典的聚類演算法，其流程如下：

隨機選擇 K 個初始中心點
將每個資料點分配到最近的中心點所屬的簇
更新每個簇的中心點為該簇所有點的平均值
重複步驟 2-3 直到收斂（中心點不再變化）

K-Means 簡單高效，但需要預先指定 K 值，且對初始中心點選擇敏感。

其他聚類演算法

DBSCAN：密度為基礎的聚類方法，可以發現任意形狀的簇，且不需要預先指定簇數量。能自動識別雜訊點。
層次聚類：建立資料的層次結構，分為凝聚式（由下而上合併）和分裂式（由上而下分裂）。結果可以用樹狀圖可視化。
GMM（高斯混合模型）：使用機率模型進行聚類，每個簇服從一個高斯分布，使用 EM 演算法估計參數。

聚類評估

輪廓係數：衡量樣本與所屬簇的緊密程度及與其他簇的分離程度
肘部法則：繪製 K 值與誤差平方和（SSE）的關係圖，選擇拐點處的 K
Davies-Bouldin 指數：簇內距離與簇間距離的比值

本課程範例

kmean.py — K-Means 實作

相關連結