国家宝藏之传国玉玺使用回归树预测生态群落数量-预测模型-R语言数据分析与实践

作品分类:全部文章 2020-09-02

使用回归树预测生态群落数量|预测模型-R语言数据分析与实践


在气候变化和人类活动双重影响下容易引发湖库藻类水华道 食堂包子,严重威胁生态系统稳定性和供水安全月怀一鸡。本篇公众号通过构造回归树进行数量预测,达到环境检测预警以及保护的目的.
预测方法
常见的回归分析分为:
多元线性回归
回归树
R中的线性回归,是类似linear approximation的一种近似拟合斯托洛贝里, 因此不能使用有缺失值的数据集.而回归树模型可以很自然的处理这些带有缺失值的数据。在回归树模型中,可以直接应用原始的数据样本记录。
回归树
回归树是对某些解释变量分层次的逻辑测试.如果想建立一个回归树来预测某个水样的频率蒙特利尔事件,只要丛根节点开始根据对该水样检验的结果刘济源,追踪某个分支异想天开造句,直到叶节点.
通常分两步来建立回归树.(类似数据结构中的概念)富樫勇太,国家宝藏之传国玉玺最初生成一颗较大的树,然后通过统计估计删除底部的一些节点来对树进行修剪.这个过程的目的是防止过度拟合.
基于树的模型自动刷选某些相关的变量.这样导致不是所有的变量都会在树中出现.
建立代码预测藻类a1出现的频率:

回归树结果
树丛R标为1的根节点开始读,R在这个节点中提供数据的相关信息.
1
根节点
根节点:一共有198个水样(用于构建树的训练集数据样本),在这198个水样中龙兴华夏,藻类a1出现的频率为16.996460家乐士 ,相对平均值的偏差为90401.290
2
分支
树的每个节点有两个分支,这与预测变量的检验结果有关.
2)PO4≥43.818 (逻辑判断为TRUE)147水样
同时也有另一个分支包含剩余的51个不满足这个测试的水样(R标记为“3”)
丛节点2有两个分支分别连接到节点4和节点5,具体到哪个节点由对变量Cl的检验来决定.
不断重复以上的检验阎瑞生案 ,直到达到某一个叶节点.
这些叶节点在R中由星号标记出来.
在叶节点,钱景峰可以对树进行预测.
3
可视化
使用plot( )函数、text( )函数得到回归树的图形表示.

回归树
summary( )也可以用于树对象.此函数将给出许多有关于树的测试信息、其他可能考虑的测试以及中间分隔等.
(这里的中间分隔是R回归树处理缺失值的一种方法.)
当给定条件满足时构建过程就停止.满足条件:
1)偏差的减少小于某一个给定界限值时
2)当节点中的样本数量小于给定界限值
3)当树的深度大于一个给定的界限值
使用rpart( )函数构建树,函数的三个参数:cp、minsplit、maxdepth来确定,默认值为
cp=0.01, minsplit=20刺客信条余烬, maxdepth= 30.
通过经常检查这些默认值的有效性来避免树的过度拟合情况.
过度拟合
事实上蛇结编法图解,一个过度大的树一般会很好地对训练集数据进行拟合,但是它会拟合给定数据集中的一些虚假的关系, 为了避免过度拟合,可以通过对树采取事后修剪过程来进行.
复杂度损失修剪法
“复杂度损失修剪法”使用R在每个树节点计算的参数值cp.
rpart( )函数建立的回归树是上面列表中的最后一个树,即树9 ——该树包括9个测试和一个相对误差值0.35464.
R应用10折交叉验证的内部过程,评估该树的平均相对误差为0.70941±0.11215,根据这些更稳健的性能估计信息,可以避免过度拟合问题.
4号树的预测相对误差0.66030 最小.
另一个选择标准是根据1-SE规则来选择最好的回归树.
这种修剪方法试图估计cp值以确保达到预测的准确性和树的大小之间的最佳折中龚澎,并给出一个由函数rpart( )建立的回归树.
可视化
通过R生成回归树的一些子树,并估计这些树的性能.

修剪回归树

修剪回归树
也可以在图形窗口下使用snip.rpart( )函数.首先邪气丛生,画出回归树,然后调用这个参数的函数.如果点击回归树的某些节点,R会在控制台输出这些节点的信息,如果继续点击这个节点,R就在这个节点对树进行修剪.

可以在图形窗口继续修剪回归树,直到右击结束这一交互式的修剪过程.调用该函数的结果仍然是一个树对象.
小结
事实上,一个过度大的树一般会很好地对训练集数据进行拟合宛如造句,但是它会拟合给定数据集中的一些虚假的关系,因此当把该模型用于新数据的预测时夜叉御魂,预测性能很差哈莉·贝瑞,尤其是当需要逼近的函数的假设条件不是很严格的时候, 需要一个事后统计估计步骤来避免过度拟合的情况.也可在叶节点用更复杂的模型来提高回归树的精确度.
当要求精度时,可使用quadratic approximation方式贴近实际模型.

推荐阅读
通过环境影响因子预测生物种群数量|预测模型
缺失值处理详解|数据处理专题
R语言数据欺诈侦测
影响变量的因子分析|数据处理专题
R语言
开启数据挖掘之旅
建模专题
长按二维码关注

意见反馈