本文在介绍随机森林分类方法和原理的基础上,采用Landsat8洪泽湖地区TM影像进行数据试验,并将结果与最大似然分类法(MLC,Maximum Likeihood Classifier)的分类结果作比较,以评价其分类性能及不同方法的优劣。

2 随机森林分类器

2.1 Cart决策树

决策树是随机森林的基本单位,它本身可以视为一个树状预测模型,它包含根节点、内部节点、终节点。该模型由根节点出发,按照特定属性对根节点进行分割,形成增长,终节点区别内部节点,具有特殊标识,内部节点继续作为根节点继续增长,直至全部分为终节点,完成增长。

决策树的在内部节点分裂时所采用属性价值的衡量标准,是区分不同决策树的依据[4]。

CART(Classification and Regression Trees)是决策树的一种,也是随机森林的组成单位,他是以Gini指标作为衡量标准,该指标适用于二进制的字段。该指标的算法思想为:

假设某节点t处的数据样本集合T包含k个类别的记录,那么Gini指标定义:

 其中p(j|t)为类别j在节点t处的概率。当Gini(t)为0时,次节点处的所有样本确定了类别,能得到最大信息。当Gini(t)最大时,该节点的样本对于分类来说,分到哪一类的可能性都一样,所以信息最小。文献综述

关于分割方法T的Gini指标为:

 其中,l是子节点个数,n是总样本数,ni是在节点i处样本数

Gini指标的基本思想是:对于所有分裂方法T,选择能使得在分裂节点i处的Gini(i)最小的属性作为节点i的分裂标准,创建树枝,往下延伸。

决策树结构直观便于理解,在一些简单分类当中具有一定的应用。然而每一个内部节点都需要一种属性判定形成单个分类器,随着根节点内含数量增大,整个模型的延伸需要繁多的分类器的支持。

2.2 模型建立

随机森林是将单棵决策树进行集群,先从原始样本B中使用袋装法多次随机产生Bootstrap样本集Bi,将每个生成的新训练样本Bi集生成一颗对应的决策树Ti,这棵决策树在分类时所用的预测变量组Ci也是在特征变量中随机选择,产生对应的分类结果,最后综合所有树的分类结果进行投票产生最终结果

上一篇:美国高校社会募捐的运行机制
下一篇:基于遥感的洪泽湖生态服务价值评价

洪泽湖水环境污染特征与治理对策

洪泽湖生态经济区水污染...

明代徐州地区自然灾害及其应对策略

康师傅茉莉清茶宜兴地区消费者购买行为分析

顺丰嘿客南通地区营销现状及对策分析

李宁运动鞋在淮安地区4P营销策略分析

百雀羚护肤品在泰州地区的4P营销现状和对策

拉力采集上位机软件开发任务书

高校网球场馆运营管理初探【1805字】

辩护律师的作证义务和保...

浅谈新形势下妇产科护理...

国内外无刷直流电动机研究现状

谷度酒庄消费者回访调查问卷表

中国古代秘书擅权的发展和恶变

多元化刑事简易程序构建探讨【9365字】

《醉青春》导演作品阐述

浅谈传统人文精神茬大學...