决策树算法——概述

决策树是一种基本的分类和回归方法。

决策树模型呈树形结构，在分类问题中，表示基于特征对实例进行分类的过程，可以认为是if-then规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。主要优点是模型具有可读性、分类速度快。

学习时，利用训练数据，根据损失函数最小化的原则建立决策树模型。预测时，对新的数据，利用决策树模型进行分类。

决策树学习通常包括3个步骤：特征选择、决策树的生成与决策树的剪枝。

主要包括ID3算法，C4.5算法和CART算法。

决策树模型

分类决策树模型是一种描述对实力进行分类的树形结构。决策树由节点和有向边组成，节点有两种类型：内节点和叶节点，内节点表示一个特征或属性，叶节点表示一个类。

用决策树分类，从根结点开始，对实例的某一特征进行测试，根据测试结果，将实例分配到其子节点；这时，mri一个子节点对应着该特征的一个取值。如此递归地对实例进行测试并分配，直至达到叶节点。最后将实力分到叶节点的类中。

特征选择
特征选择在于选择对训练数据具有分类能力的特征，这样可以提高决策树学习的效率。如果利用一个特征进行分类的结果与随机分类的结果没有很大差别，则称这个特征是没有分类能力的，经验上扔掉这样的特征对决策树学习的精度影响不大，通常特征选择的准则是信息增益或信息增益比。

——————————
还未涉及决策树的剪枝部分……