CRM试用热线:400-600-7912
>>>

选用的数据挖掘技术及算法介绍

3.3.4数据挖掘模型的统计评价- 搜索算法
方法如下®:
L, =find __ frequent __ l-itemsels( D);
For(k = 2;L^_, ,k++) 1
Cj^ =apriori _ gen( L^_,,niin _ sup);
For each transaction t e D j
C,=subset(Cj.,t);
For each candicate c C,
c.count ++;
Lk = { c e C, c.count >
①注:此处保持计算机倍言格式,不区分英文字母正斜体,标点符号必须 为英文输入法下标点符号格式。Relum L = U k ;
Procedure apriori _ gen Itemsels : niin _ sup ; m for each itemsetl! e L^-, for each itemsetlj E L^.,
if(l,[l]=ljl])n(l.[2]=!,[2])n
2])n(l|[k-l]=l2[k-l]) then | c = l〗oo
if has infrequent subset( c, L^-,) then
delete c ;
else add c to c.
return ;
procedure has infrequent subset (c : candidate
k-itemset ; L^._, : frequent ( k-1) -itemset)
for each( k-1) -subset s of c
if s ^ Lj,., then
return TRUE;
return FALSE ;
@) —^⑤一“舍

5. 4.2选用的数据挖掘技术及算法介绍
决策树方法在3.2.2中已有简单介绍,这里我们选用的 C5.0模型来建立销哲预测决策树,C5.0模型采用的是ID3算 法,下面简要介绍1D3筵法。
5. 4. 2. 1 基本概念和基本公式
设训练实例棠为A学习的目的是将训练实例分为类,记为 C,,Ci’…,C„。设第i类训练实例的个数是IX, I中总的训练实 例个数为1X1 ,记一个实例属于第〖类的概率为P (X,),则有:
P {X,) = \X,\ /\X\ (5. 1)
此时决策树对划分:^^的确定程度为// iX),则有:
H{X)=~ ‘^P{X,)hos,P(X,) (5.2)
决策树学习的过程就是使得决策树对划分的不确定程度逐 渐减少的过程。若选择测拭属性/i进行测试,设属性/I具有属 性值fl,,a” a。在的情况下属于第i类的实例个数为 1^,1,记测试厲性4的取值为a,时,它属于第i•类的概率为: “乂 I >1 =a;]