定义
机器学习聚类是在无类别标签的情况下,根据数据自身的相似性自动进行分组的无监督学习方法。它让机器在没有"标准答案"的情况下,自主发现数据中的内在结构和自然分组。
聚类分析的目标是将数据划分为多个簇(cluster),使得同一簇内的数据点尽可能相似,不同簇间的数据点尽可能不同。
簇数量 (K):
主要算法
K-means
最常用的聚类算法,通过迭代更新簇中心,将数据划分为K个簇。需要预先指定K值。
层次聚类
自底向上或自顶向下构建树状聚类结构,无需预先指定簇数量。
DBSCAN
基于密度的聚类,能发现任意形状的簇,对噪声鲁棒。
高斯混合模型
假设数据由多个高斯分布生成,使用EM算法进行软聚类。
K-means算法流程
1
随机选择K个初始中心
→
2
分配点到最近中心
→
3
重新计算中心位置
→
4
重复直到收敛
0
簇内平方和
0
簇间平方和
0
轮廓系数
应用场景
- 客户细分:根据购买行为、 demographics 将客户分组,用于精准营销
- 图像分割:将图像像素按颜色、纹理聚类,实现自动分割
- 文档聚类:将相似主题的文档分组,用于信息检索和推荐
- 异常检测:识别与其他数据点明显不同的异常点
- 社交网络分析:发现社区结构,识别关键节点
- 基因表达分析:将具有相似表达模式的基因聚类
- 市场细分:根据不同特征将市场划分为不同细分市场
优点:无需标签数据,能发现数据中的隐藏结构,适用于探索性数据分析。
挑战:需要确定合适的簇数量,对噪声和异常值敏感,算法选择影响结果。
视觉化提示词
用于生成聚类概念图的详细提示词:
"一个黑暗的三维空间中,漂浮着数百个发光的彩色小点,最初随机分布。逐渐地,这些点开始缓慢移动,被几个发光的中心点吸引。最终,所有点聚集成几个清晰的、不同颜色的球状簇。每个簇有自己的颜色和发光中心。点与点之间有微弱的连接线,同一簇内的连接线更亮更密集。背景中有算法公式在浮动,展示K-means的计算过程。视角从混乱的全景逐渐聚焦到整齐的聚类结果。风格:星空般的效果,粒子系统,动态渐变,科幻感,深色背景突出光点。"