聚類演算法 (Clustering)

將相似資料點分組的非監督式學習方法

概述

聚類(Clustering)是非監督式學習的核心任務之一,目標是將資料集中的樣本劃分為若干個群組(簇),使得同一簇內的樣本相似度高,不同簇間的樣本相似度低。聚類分析廣泛應用於客戶細分、影像分割、生物資訊學、異常檢測和資料壓縮等領域。

K-Means

K-Means 是最經典的聚類演算法,其流程如下:

  1. 隨機選擇 K 個初始中心點
  2. 將每個資料點分配到最近的中心點所屬的簇
  3. 更新每個簇的中心點為該簇所有點的平均值
  4. 重複步驟 2-3 直到收斂(中心點不再變化)

K-Means 簡單高效,但需要預先指定 K 值,且對初始中心點選擇敏感。

其他聚類演算法

聚類評估

本課程範例

相關連結