🔍
卡片 17

机器学习聚类

无监督学习的核心,让机器自主发现数据中的自然分组

无监督学习 | 数据分析

定义

机器学习聚类是在无类别标签的情况下,根据数据自身的相似性自动进行分组的无监督学习方法。它让机器在没有"标准答案"的情况下,自主发现数据中的内在结构和自然分组。

聚类分析的目标是将数据划分为多个簇(cluster),使得同一簇内的数据点尽可能相似,不同簇间的数据点尽可能不同。

簇数量 (K):
3

主要算法

K-means

最常用的聚类算法,通过迭代更新簇中心,将数据划分为K个簇。需要预先指定K值。

层次聚类

自底向上或自顶向下构建树状聚类结构,无需预先指定簇数量。

DBSCAN

基于密度的聚类,能发现任意形状的簇,对噪声鲁棒。

高斯混合模型

假设数据由多个高斯分布生成,使用EM算法进行软聚类。

K-means算法流程

1

随机选择K个初始中心

2

分配点到最近中心

3

重新计算中心位置

4

重复直到收敛

0

簇内平方和

0

簇间平方和

0

轮廓系数

应用场景

  • 客户细分:根据购买行为、 demographics 将客户分组,用于精准营销
  • 图像分割:将图像像素按颜色、纹理聚类,实现自动分割
  • 文档聚类:将相似主题的文档分组,用于信息检索和推荐
  • 异常检测:识别与其他数据点明显不同的异常点
  • 社交网络分析:发现社区结构,识别关键节点
  • 基因表达分析:将具有相似表达模式的基因聚类
  • 市场细分:根据不同特征将市场划分为不同细分市场

优点:无需标签数据,能发现数据中的隐藏结构,适用于探索性数据分析。

挑战:需要确定合适的簇数量,对噪声和异常值敏感,算法选择影响结果。

视觉化提示词

用于生成聚类概念图的详细提示词:

"一个黑暗的三维空间中,漂浮着数百个发光的彩色小点,最初随机分布。逐渐地,这些点开始缓慢移动,被几个发光的中心点吸引。最终,所有点聚集成几个清晰的、不同颜色的球状簇。每个簇有自己的颜色和发光中心。点与点之间有微弱的连接线,同一簇内的连接线更亮更密集。背景中有算法公式在浮动,展示K-means的计算过程。视角从混乱的全景逐渐聚焦到整齐的聚类结果。风格:星空般的效果,粒子系统,动态渐变,科幻感,深色背景突出光点。"