CRM试用热线:400-600-7912
>>>

crm系统成功的秘籍

然后,将样本空间分成两部分,选一个特定的回归变觉〜。 如聚X,为一连续随机变M•,选择一个指标iji?,并且定义:

/?, = \xgR 0 , R2 = \xeR 0 Xj>a \       (3.6)

若是无条件随机变in:,值为4,,<4:,…,/!,,则选择其子 策合。

1< M,,…,、I,并且定义:

/?1 = \x^R 0 Xj^oi\

R,= \xeR 0 Xj^ \A^, , AJ \ /I       (3. 7)

由此可以得到,第二步的分类回归树的评估值可表示为:

fix) =          + (“f7~[各         (3. 8)

其中,liVJefl.l , I /i I是/|中样本的个数;将样本 空间/?分为尺I和尺:两部分所依赖的准则是使评估值冗余平方和 为最小。样本冗余的平方和定义为:

i:[5W(0]2 (3.9)

t a I

接下来,继续分别对R,和R:按上面的方式分割,直到观测 样本数位变得很少(通常为5个)或者样本冗余的平方和为最 小。其中^?为根节点,和分别为的左右子节点,直到最 终结果成为一棵二叉树。

为了避免树生投得过分庞大,遥^^?要对树进行剪枝。但是 在树训练过度前就停止树的生长并不一定是Jii好的方法。例如, 在分类回归树的样本冗余的平方和下降不再明显时停止树的生 长,这可能只引起样本冗余的平方和赞时下降不再明显,但是 随着分类回归树的进一步生长,此平方和的值可能会产生更大

 

l[y, -/(、)]

 

 

设0忘《<oo为反杂度参数,有(3. 11)式:

Ra (/) = R (/) +aLeaves (/)         (3. U )

其中,Leaves (/)为分类回归树叶节点的数111:; (/)可 以理解为该树加权错分率与对M杂度处罚值之和的复合成本。