回归树

CART

ID3,C4.5都只能做分类,不能做回归。CART则采用了二叉树的形式,使用Gini系数构建分类树,使用均方误差构建回归树。

在构建回归树时,根据分裂后各子节点均方误差之和与父节点均方误差的差值来选择分裂条件进行分裂。

构建好后,新的测试样本的预测值是其所在叶节点中训练样本label的均值。
如果真是这样,那么回归树是没有办法进行拓展的,换言之对于不在训练集范围的y值它无法预测到。例如,他做不到线性回归的拓展性。

生成回归树之后,在各叶节点上建立线性回归模型,产生最终预测结果。换言之,可以理解为先通过分类选择临近样本点,利用临近样本点去进行回归学习。
也就是先分类缩小范围再回归。局部加权回归思想的一种变体

[TBC]
回归树