根据下列算法而建造每棵树:

1、M代表变量数,N代表例子数

2、用小m来进行判断。并且m<M

3、多次可重复地从N中抽取例子,然后训练它们,并用其来预测类别,进行误差分析

4、在M中选m个变量,计算最佳分割方式

5、使决策树正常地生长。这样可以在完成生长后对所有情况进行逐一讨论[6]

随机森林算法内在的随机性让人感觉算法的好坏全靠运气。然而,通过对多棵几乎是随机创

建的决策树的预测结果取均值,就能降低预测结果的不一致性。我们用方差来表示这种不一致。

方差是由训练集的变化引起的。决策树这类方差大的算法极易受到训练集变化的影响,从而

产生过拟合问题。对比来说,偏误(bias)是由算法中的假设引起的,而与数据集没有关系。比如,算法错误地假定所有特征呈正态分布,就会导致较高的误差。通过分析分类器的数据模型和实际数据集的匹配情况,就能降低偏误问题的负面影响。

对随机森林中大量决策树的预测结果取均值,能有效降低方差,这样得到的预测模型的总体 正确率更高。

一般而言,决策树集成做出了如下假设:预测过程的误差具有随机性,且因分类器而异。因 此,使用由多个模型得到的预测结果的均值,能够消除随机误差的影响——只保留正确的预测结果。

随机森林的优点有:文献综述

1、通过随机森林构造区分事物的准则。这会使得进行预测时准确率很高

2、可处理的数据容量大

3、因为遵循单一变量的原则。所以它在预测的时候能够了解到哪个变量的影响力大

4、对误差的分析很到位

5、即使数据丢失了一部分,预测的准确度仍能保持很高

6、能有效平衡误差

7、计算亲近度很有效

8、学习过程是很快速的。

缺点是:

1、随机森林已经被证明在某些领域会过拟

2、如果过多给数据分层次。这可能会加大误差。降低预测结果的可信度

上一篇:基于消费者个性特征的化妆品网站网页设计的研究
下一篇:基于网络的通用试题库系统的研究与实现数据库的设计与前端开发

基于MOODLE平台的在线交互式学习设计

基于离散事件系统Petri网模型的可达图研究

基于高斯过程动态模型的时序数据恢复方法

基于深度学习的目标识别算法研究

MATLAB基于流形学习与神经网络的预测建模

基于SNA的唐诗关系分析

基于启发式算法的智能路径规划研究

组态王文献综述

浅谈动画短片《天降好运》中的剧本创作

大学生就业方向与专业关系的研究

林业机械作业中的安全性问题【2230字】

人事管理系统开题报告

淮安市老漂族心理与休闲体育现状的研究

紫陵阁

弹道修正弹实测弹道气象数据使用方法研究

适合宝妈开的实体店,适...

小学《道德与法治》学习心得体会