🌳
卡片 15

决策树

模拟人类决策过程的直观机器学习算法

机器学习 | 监督学习

定义

决策树是一种通过一系列"是/否"问题来进行决策或分类的树状模型。它从根节点开始,根据特征值选择分支,直到到达叶节点得出结论,模拟了人类做决策时的思维过程。

决策树具有很好的可解释性,可以直观地展示决策逻辑,是机器学习中最基础、最直观的算法之一。

工作原理

决策树通过递归地将数据集分割成更小的子集来构建树结构:

示例:是否出去玩

1
根节点:今天下雨吗?
内部节点:风大吗?
叶节点:在家休息
叶节点:带伞出门
叶节点:开心出门

每个内部节点代表一个特征测试,每个分支代表测试结果,每个叶节点代表最终的决策结果。

核心算法

决策树构建的关键在于如何选择最佳的特征进行分割:

信息增益

基于信息熵的减少量来选择特征。信息熵表示数据的混乱程度,信息增益越大,分割效果越好。

基尼不纯度

衡量数据集的不纯度。基尼系数越小,数据越纯。CART算法使用基尼指数选择特征。

增益率

信息增益的改进版本,考虑了特征自身的熵,避免选择取值过多的特征。

ID3算法

使用信息增益,只能处理分类特征,容易过拟合

C4.5算法

ID3的改进,使用增益率,能处理连续特征和缺失值

CART算法

使用基尼指数,能处理回归和分类任务,生成二叉树

应用领域

  • 信用评分:根据收入、负债、信用历史等判断贷款风险
  • 医疗诊断:根据症状、检查结果判断疾病类型
  • 客户细分:根据消费行为、 demographics 进行客户分类
  • 故障诊断:根据设备参数判断故障类型
  • 营销决策:根据客户特征制定营销策略
  • 游戏AI:根据游戏状态选择最佳行动

优点:可解释性强,不需要数据标准化,能处理数值和类别数据,可视化直观。

缺点:容易过拟合,对数据变化敏感,可能创建过于复杂的树。

视觉化提示词

用于生成决策树概念图的详细提示词:

"一棵巨大的、发光的决策树,生长在数据土壤中。树根处是'原始数据',树干上分裂出多个分支,每个分支节点上都有一个决策问题(如'收入>5万?'、'年龄<30?')。分支继续分裂,最终到达叶子节点,每个叶子上有一个决策结果(如'批准贷款'、'拒绝贷款')。树上有一个小机器人正在从树根沿着分支走向正确的叶子。数据像养分一样从树根流向叶子。背景中有数学公式浮动,展示信息增益和基尼系数的计算。风格:奇幻信息图,树木由发光的线条和数据流构成,蓝绿色调,透明质感,科技与自然结合。"