CRM试用热线:400-600-7912
>>>

参数设置及模型建立步骤

则有:
P [尤.‘ I A =aj = I X. I / I X, I (5.3)
= 的实例记为 >;,crm此时决策树分类的不确定程度就是训 练集对属性>1的条件熵,记为H [rj,则有:
=- X/'[A’-U=a^] Log^P[X. I A = a J (5.4)
对选择测拭属性/I后划分出的每个子狼,节点4对于分类 的信息嫡记为:H{X\ A]
则有:
H[X\ A] = ip[A =«)] H[Y,]
=土 X P[^ = oj P[X^ I A = Uj] Log^P[X, 1 A = aj]
1 ;= *
(5.5)
屈性4对于分类提供的信息iiL即属性的信息增益,记 为Gain (A),则有:
Gain ⑷=H [X] – H [X \ A] (5.6)
Gain的值越大,说明选择测试属性<4对于分类提供的信息 越大,则选择属性4之后对于分类的不确定程度越小。n)3算法 就是采用信息增益作为测拭属性的选取标准分割训练实例集, 生成用来分类的决策树。
5.4.2.2算法基本过程
在决策树ID3剪法中主要是引进了信息论中的互信息,将 其称为信息增益(Infommticm Gain)。IDS算法就是利用信息增 益来检验数据集中的每个特征属性,先找出最有判断力的因素, 把数据分成多个子集,每个子集又选择最有判断力的因素进行 划分,然后选择信息增益最大的特征属性产生决策树的节点, 由该特征属性的不同取值建立分枝,再对各分枝的实例子集递 归使用该方法建立决策树的下一级节点和分枝,直到某一子集 中的实例属于同一类,便可以用其来对新的数据进行分类。
5. 4,3参数设置及模型建立步骤
在数据流中引人Derive节点,并将其设S为二值型字段, 利用公式生成器键人取值条件,即当程控新功能和互联星空均 为揟?时,该字段值为揟?,并将该节点命名为“时尚用 户”,如图5.9所示: