决策树算法——概述

决策树是一种基本的分类和回归方法。

决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程,可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。主要优点是模型具有可读性、分类速度快。

学习时,利用训练数据,根据损失函数最小化的原则建立决策树模型。预测时,对新的数据,利用决策树模型进行分类。

决策树学习通常包括3个步骤:特征选择、决策树的生成与决策树的剪枝。

主要包括ID3算法,C4.5算法和CART算法。

决策树模型

分类决策树模型是一种描述对实力进行分类的树形结构。决策树由节点和有向边组成,节点有两种类型:内节点和叶节点,内节点表示一个特征或属性,叶节点表示一个类。

用决策树分类,从根结点开始,对实例的某一特征进行测试,根据测试结果,将实例分配到其子节点;这时,mri一个子节点对应着该特征的一个取值。如此递归地对实例进行测试并分配,直至达到叶节点。最后将实力分到叶节点的类中。

特征选择
特征选择在于选择对训练数据具有分类能力的特征,这样可以提高决策树学习的效率。如果利用一个特征进行分类的结果与随机分类的结果没有很大差别,则称这个特征是没有分类能力的,经验上扔掉这样的特征对决策树学习的精度影响不大,通常特征选择的准则是信息增益或信息增益比。

——————————
还未涉及决策树的剪枝部分……