本篇文章给大家谈谈{易七},以及决策树和决策表用来描述对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。
决策树
决策树又称判定树,是一种呈树状的图形工具,适合于描述处理中具有多种策略,要根据若干条件的判定,确定所采用策略的情况。左端圆圈为树根表示决策结点;由决策结点引出的直线,形似树枝,称为条件技,每条树枝代表一个条件;中间的圆圈称为条件结点;右端的实心圆表示决策结果。决策树中条件结点以及每个结点所引出条件技的数量依具体问题而定。

周末学习知识点。
何为决策树?
你在任何一个场合或者任何一个时间中只要有纸和笔在你需要作出选择的时候,就可以通过画上几笔分析图,帮你做出当下更好的选择。
举例:
1上街买衣服如何选择呢?
有两个选择买还是不买?买衣服就是原点的开始,画树叉图,一条线是买,另一条线是不买,再往下延伸,买衣服的理由,价位,款式,喜好,不买的理由原因,然后分析出买与不买的最佳选择。
2可以用在去哪里就业?
如果你想在一线城市发展,又想在二线三线城市发展,以到哪里就业为原点,画两条竖叉图,一条是一线城市就业;另外一条是二三线城市就业,在从一线城市就业往下画树叉图,优势和劣势按照金字塔结构画出并分析,优势1,2,3,劣势1,2,3,按同样的方法画出另一条同样的线,分析出自己在一线城市发展和在二三线城市发展的优势和劣势,然后以此3做出最佳的选择。
3买一张去北京的火车票。
已买火车票为原点,画树叉图,当你大概确定了买几点的火车票的时候就要进行选择,画两条竖叉图或者多条,然后写出选择和放弃的的理由,最终做出最优判断,选择。
很多时候我们在做选择的时候一直在纠结,如果能为自己画一个决策树模型的树杈图,很快就会做出当下正确的决策。
这个决策树模型是可以广泛的运用在需要选择的任何场合,记得随身携带一张纸和一支笔,就会帮你轻松简单的决策出当下最需要做的事情。
通俗来说,决策树分类的思想类似于找对象。现想象一个女孩的母亲要给这个女孩介绍男朋友,于是有了下面的对话:
女儿:多大年纪了?
母亲:26。
女儿:长的帅不帅?
母亲:挺帅的。
女儿:收入高不?
母亲:不算很高,中等情况。
女儿:是公务员不?
母亲:是,在税务局上班呢。
女儿:那好,我去见见。
这个女孩的决策过程就是典型的分类树决策。相当于通过年龄、长相、收入和是否公务员对将男人分为两个类别:见和不见。假设这个女孩对男人的要求是:30岁以下、长相中等以上并且是高收入者或中等以上收入的公务员,图1表示了女孩的决策逻辑。
如果你作为一个女生,你会优先考虑哪个条件:长相?收入?还是年龄。在考虑年龄条件时使用25岁为划分点,还是35岁为划分点。有这么多条件,用哪个条件特征先做if,哪个条件特征后做if比较优呢?还有怎么确定用特征中的哪个数值作为划分的标准。这就是决策树机器学习算法的关键了。
首先,我们需要熟悉信息论中熵的概念。熵度量了事物的不确定性,越不确定的事物,它的熵就越大。具体的,随机变量X的熵的表达式如下:
如抛一枚硬币为事件 , , ,
掷一枚骰子为事件 , ,
,显然掷骰子的不确定性比投硬币的不确定性要高。
熟悉了单一变量的熵,很容易推广到多个个变量的联合熵,这里给出两个变量X和Y的联合熵表达式:
有了联合熵,又可以得到条件熵的表达式H(X|Y),条件熵类似于条件概率,它度量了我们在知道Y以后X剩下的不确定性。表达式:
我们刚才提到 度量了 的不确定性,条件熵 度量了我们在知道 以后 剩下的不确定性,那么 呢?它度量了 在知道 以后不确定性减少程度,这个度量我们在信息论中称为互信息,记为 。
信息熵 ,联合熵 ,条件熵 ,互信息 之间的关系由图2所示:
在决策树的ID3算法中,互信息 被称为信息增益。ID3算法就是用信息增益来判断当前节点应该用什么特征来构建决策树。信息增益大,则越适合用来分类。
下面我们用SNS社区中不真实账号检测的例子说明如何使用ID3算法构造决策树。为了简单起见,我们假设训练集合包含10个元素:
设L、F、H和D表示日志密度、好友密度、是否使用真实头像和账号是否真实,下面计算各属性的信息增益:
因此日志密度的信息增益是0.276。用同样方法得到H和F的信息增益分别为0.033和0.553。因为F具有最大的信息增益,所以第一次分裂选择F为分裂属性,分裂后的结果图3表示:
在上图的基础上,再递归使用这个方法计算子节点的分裂属性,最终就可以得到整个决策树。
但是ID3算法中还存在着一些不足之处:
1.ID3没有考虑连续特征,比如长度,密度都是连续值,无法在ID3运用。这大大限制了ID3的用途。
2.ID3采用信息增益大的特征优先建立决策树的节点。很快就被人发现,在相同条件下,取值比较多的特征比取值少的特征信息增益大。比如一个变量有2个值,各为 ,另一个变量为3个值,各为 ,其实他们都是完全不确定的变量,但是取3个值的比取2个值的信息增益大。(信息增益反映的给定一个条件以后不确定性减少的程度,必然是分得越细的数据集确定性更高,也就是条件熵越小,信息增益越大)如河校正这个问题呢?为了解决这些问题我们有了C4.5算法。
对于第一个问题,不能处理连续特征, C4.5的思路是将连续的特征离散化。比如m个样本的连续特征A有m个,从小到大排列为 。则C4.5取相邻两样本值的平均数,一共取得m-1个划分点,其中第i个划分点 表示为: 。对于这m-1个点,分别计算以该点作为二元分类点时的信息增益。选择信息增益最大的点作为该连续特征的二元离散分类点。比如取到的增益最大的点为 ,取大于 为类别1,小于 为类别2。这样我们就做到了连续特征的离散化。
对于第二个问题,信息增益作为标准容易偏向于取值较多的特征。C4.5中提出了信息增益比:
即特征 的对数据集 的信息增益与特征 信息熵的比,信息增益比越大的特征和划分点,分类效果越好。某特征中值得种类越多,特征对应的特征熵越大,它作为分母,可以校正信息增益导致的问题。
回到上面的例子:
同样可得: , 。
因为F具有最大的信息增益比,所以第一次分裂选择F为分裂属性,分裂后的结果图3表示。
再递归使用这个方法计算子节点的分裂属性,最终就可以得到整个决策树。
看完上述材料,我们知道在ID3算法中我们使用了信息增益来选择特征,信息增益大的优先选择。在C4.5算法中,采用了信息增益比来选择特征,以减少信息增益容易选择特征值种类多的特征的问题。但是无论是ID3还是C4.5,都是基于信息论的熵模型的,这里面会涉及大量的对数运算。能不能简化模型同时也不至于完全丢失熵模型的优点呢?有!CART分类树算法使用基尼系数来代替信息增益比,基尼系数代表了模型的不纯度,基尼系数越小,则不纯度越低,特征越好。这和信息增益(比)是相反的。
在分类问题中,假设有 个类别,第 个类别的概率为 ,则基尼系数为:
对于给定的样本 ,假设有 个类别,第 个类别的数量为 ,则样本的基尼系数为:
特别的,对于样本D,如果根据特征A的某个值a,把D分成D1和D2两部分,则在特征A的条件下,D的基尼系数为:
回到上面的例子:
同理得: , 。
因为L具有最小的基尼系数,所以第一次分裂选择L为分裂属性。
再递归使用这个方法计算子节点的分裂属性,最终就可以得到整个决策树。
小伙伴们如果觉得文章还行的请点个赞呦!!同时觉得文章哪里有问题的可以评论一下 谢谢你!
同学你好,很高兴为您解答!
决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。Entropy = 系统的凌乱程度,使用算法ID3, C4.5和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。
决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。
分类树(决策树)是一种十分常用的分类方法。他是一种监管学习,所谓监管学习就是给定一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分类器,这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称之为监督学习。
希望我的回答能帮助您解决问题,如您满意,请采纳为最佳答案哟。
再次感谢您的提问,更多财会问题欢迎提交给高顿企业知道。
高顿祝您生活愉快!
小白自学路上的备忘记录。。。
参考:
决策树(分类树、回归树)
决策树 :这个博客的图真好看,通俗易懂。哈哈
决策树详解
决策树(Decision Tree)是一种有监督学习算法,常用于分类和回归。本文仅讨论分类问题。
决策树模型是运用于分类以及回归的一种树结构。决策树由节点和有向边组成,一般一棵决策树包含一个根节点、若干内部节点和若干叶节点。决策树的决策过程需要从决策树的根节点开始,待测数据与决策树中的特征节点进行比较,并按照比较结果选择选择下一比较分支,直到叶子节点作为最终的决策结果。
简而言之,决策树是一个利用树的模型进行决策的多分类模型
为了找到最优的划分特征,我们需要先了解一些信息论的知识:
纯度 :
你可以把决策树的构造过程理解成为寻找纯净划分的过程。数学上,我们可以用纯度来表示,纯度换一种方式来解释就是让目标变量的分歧最小
信息熵 :表示信息的不确定度
在信息论中,随机离散事件出现的概率存在着不确定性。为了衡量这种信息的不确定性,信息学之父香农引入了信息熵的概念.
当不确定性越大时,它所包含的信息量也就越大,信息熵也就越高 。
信息熵越大,纯度越低。当集合中的所有样本均匀混合时,信息熵最大,纯度最低
经典的 “不纯度”的指标有三种,分别是信息增益(ID3 算法)、信息增益率(C4.5 算法)以及基尼指数(Cart 算法)
信息增益 :
信息增益指的就是划分可以带来纯度的提高,信息熵的下降。它的计算公式,是父亲节点的信息熵减去所有子节点的信息熵。
信息增益率
信息增益率 = 信息增益 / 属性熵
基尼指数
基尼指数(基尼不纯度):表示在样本集合中一个随机选中的样本被分错的概率。
即 基尼指数(基尼不纯度)= 样本被选中的概率 * 样本被分错的概率
基尼系数的性质与信息熵一样:度量随机变量的不确定度的大小;
G 越大,数据的不确定性越高;
G 越小,数据的不确定性越低;
G = 0,数据集中的所有样本都是同一类别
详细参考: 机器学习——基尼指数
ID3 算法是建立在奥卡姆剃刀(用较少的东西,同样可以做好事情)的基础上:越是小型的决策树越优于大的决策树
ID3算法的核心是在决策树各个节点上根据信息增益来选择进行划分的特征,然后递归地构建决策树。算法采用自顶向下的贪婪搜索遍历可能的决策树空间。
具体方法 :
ID3的局限 :
C4.5与ID3相似,但大的特点是克服了 ID3 对特征数目的偏重这一缺点,引入信息增益率来作为分类标准。
C4.5的实现基于ID3的改进 :
信息增益率对可取值较少的特征有所偏好(分母越小,整体越大),因此 C4.5 并不是直接用增益率最大的特征进行划分,而是使用一个 启发式方法 :先从候选划分特征中找到信息增益高于平均值的特征,再从中选择增益率最高的。
C4.5的局限 :
ID3 和 C4.5 生成的决策树分支、规模都比较大,CART 算法的二分法可以简化决策树的规模,提高生成决策树的效率。
CART(classificationandregressiontree),分类回归树算法,既可用于分类也可用于回归,在这一部分我们先主要将其分类树的生成。区别于ID3和C4.5,CART假设决策树是二叉树,内部节点特征的取值为“是”和“否”,左分支为取值为“是”的分支,右分支为取值为”否“的分支。这样的决策树等价于递归地二分每个特征,将输入空间(即特征空间)划分为有限个单元。
CART的分类树用基尼指数来选择最优特征的最优划分点,具体过程如下
剪枝就是给决策树瘦身,这一步想实现的目标就是,不需要太多的判断,同样可以得到不错的结果。之所以这么做,是为了防止“过拟合”(Overfitting)现象的发生。
过拟合:指的是模型的训练结果“太好了”,以至于在实际应用的过程中,会存在“死板”的情况,导致分类错误。
欠拟合:指的是模型的训练结果不理想.
剪枝的方法 :
参考: 【机器学习】决策树(上)——ID3、C4.5、CART(非常详细)
更多模型不断更新中。。。。
决策树(decisionTree)是一种基本的分类和回归方法。此文仅讨论用于分类方法的决策树。
决策树的学习通常分为3步:
决策树的学习的思想主要源于
定义决策树 :
分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点(node)和有向边(directed edge)组成。结点又分为内部结点(internal node)和叶结点(leaf node)。内部结点表示一个特征或属性,叶结点表示一个类。
形如:
其中,圆表示内部结点,方框表示叶结点。
if-then规则,简单来说就是 :
举例:对于一个苹果,外表是红色的是红苹果,外表是绿色的是青苹果。可以表示为:
if-then规则集合具有一个重要的性质:
这就是说每一个实例都被一条路径或规则覆盖,并且只被一条路径或规则覆盖。这里所谓的覆盖是指实例的特征与路径上的特征一致,或实例满足规则的条件。
给定数据集:
其中, 为输入实例(特征向量),含有 个特征, 为类标记, , 为样本容量。
目标 :
根据给定的训练数据集构建一个决策树模型,使它能够对实例进行正确分类。
特征选择在于选取对训练数据具有分类能力的特征,这样可以提高决策树学习的效率。
如果我们利用某一个特征进行分类的结果与随机分类的结果没什么很大的差别的话,则称这个特征没有分类能力。
那么问题来了,怎么选择特征呢?
通常特征选择的准则是
下面通过例子来说明一下。
目标 :
希望通过所给的训练集数据,学习一个贷款申请的决策树。当新的客户提出贷款申请的时候,根据申请人的特征利用决策树决定是否批准贷款申请。
可见这里共有4个特征可供选择。用特征选择的准则是 。接下来介绍 。
:
熵是表示随机变量不确定性的度量。
设 是一个取有限个值的随机变量,其概率分布为
则随机变量 的熵定义为
若 ,则定义 。通常对数取以2为底,或是以 为底,熵的单位分布为比特(bit)或是纳特(nat)。
由上式可知,熵只依赖 的分布,而已 的值无关,则 的熵还可记作 ,即
则从定义可知
当随机变量只取2个值的时候,例如 时, 的分布为
熵为
熵随概率变化的曲线为
当 或 时 ,随机变量完全没有不确定性,当 时 ,熵取值最大,随机变量不确定性最大。
设随机变量 ,其联合概率分布
条件熵 表示在已知随机变量 的条件下随机变量 的不确定性。随机变量 给定条件下随机变量 的条件熵(conditional entropy),定义为 给定条件下 的条件概率分布的熵对 的数学期望
信息增益
特征 对训练集 的信息增益
根据信息增益准则的特征选择方法:对训练集 ,计算其每个特征的信息增益,并比较大小,选择信息增益最大的特征。
前期定义各个量:
信息增益的算法
输入:训练集 和特征 ;
输出:特征 对训练集 的信息增益
回看刚才的例子,
解 :
这一次我很无聊的想用一下.csv文件类型。
所以训练数据集部分如下,我存在一个loan.csv文件里了。对.csv文件的各种处理一般由python的pandas模块完成。
第一步,导入相关模块
第二步,读入数据
若是使用jupyter,可以即刻查看一下数据,和数据标签。
可以看出,除了'ID'之外前4个标签 'age', 'work', 'own house', 'Credit conditions'为我们一直在说的特征 ,而最后一个标签'label'是我们所说的类 ,所以要处理一下这些标签,
第三步,计算训练集 的熵 :
这里会用到pandas的一个统计数据的功能, groupby(by = [列]).groups ,将数据统计成字典的形式,这么说比较抽象,看下图,将我们用pandas读入的data,分为2类, , Index 表示索引,即第0,1,4,5,6,14(python计数从0开始)个数据的 ,第2,3,7,8,9,10,11,12,13个数据的 .
那么计算训练集 的熵
第四步,计算特征 对数据集 的条件熵
第五步 ,计算信息增益
输入:训练集 和特征 和阈值 ;
输出:决策树
(1) 中所有实例都属于同一类 ,则 为单结点树,并将类 作为该结点的类标记,返回 ;
(2) 若 ,则 为单结点树,并将 中实例数最大的类 作为该结点的类标记,返回 ;
(3)否则,按照上述信息增益的算法,计算 中各个特征对 的信息增益,选择信息增益最大的特征 ;
(4)如果特征 的信息增益小于阈值 ,将置 为单结点树,并将 中实例数最大的类 作为该结点的类标记,返回 ;
(5)否则,对 的每一个可能值 ,依 将 分割为若干非空子集 ,将 中实例数最大的类 作为该结点的类标记,构建子结点,由结点及其子结点构成树 ,返回 ;
(6)对第 个子结点,以 为训练集,以 为特征集,递归的调用步骤(1)~步骤(5),得到子树 ,返回 。
对上述表的训练集数据,利用ID3算法建立决策树。
解 :
第一次迭代 :
【特征:有自己的房子】将数据集 划分为2个子集 (有自己的房子)和 (没有自己的房子),观察一下 和 :
:
由于 所有实例都属于同一类 ,所以它是一个叶结点,结点的类标记为“是”。
:
对于 则需从特征 中选择新的特征。
第二次迭代 :
将 看作新的数据集 。【特征:有工作】有2个可能值,划分为2个子集 (有工作)和 (没有工作),观察一下 和 :
:
由于 所有实例都属于同一类 ,所以它是一个叶结点,结点的类标记为“是”。
:
关于{易七娛樂}和决策树和决策表用来描述的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。
本篇文章给大家谈谈{易七體育},以及扎龙自然保护区图片对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 本文目录一览: 1、黑龙江扎龙自然保护区是我国第一个 2、扎龙自然保护区门票优惠政策...
2最佳旅游时间去土耳其的话推荐每年45月910月这两个时间段,是土耳其的旅游旺季,也是最佳旅游时间,气温比较舒适,既没有8月份的闷热,也没有冬天的寒冷天空透彻晴朗,适合拍照土耳其各地气候差异很大总得来...
本报讯(记者雷风雨)记者从天津轨道交通集团获悉,继9个地铁车站试点后,今天地铁5、6、9、10号线全线建立掌上服务平台,103座车站同步推出车站服务码,为乘客提供畅行无忧的出行体验。 “广大乘...
本篇文章给大家谈谈{易七體育},以及珠海旅游景点图片对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 本文目录一览: 1、珠海有哪些地方景点? 2、珠海有几个旅游景点 3、广州珠海旅游景...
12月8日消息,截至沪深股市午间收盘,北向资金净卖出10.09亿元,沪股通净卖出19.19亿元,深股通净买入9.1亿元。...
4三亚三亚位于中国第二大岛海南省,这里的气候终年舒适宜人,特别是冬天十分时候前来保暖避寒,三亚的海很清澈,沙滩细软,还会有很多海上娱乐项目,是国际一流的旅游胜地5苏州苏州格外的秀丽,以苏州园林景观最为...