CRM试用热线:400-600-7912
>>>

聚类分析方法分析

  1. 3.3.1聚类分析方法

给定包含n个数据对象的数据库和所要形成的聚类个数k, K-nieans算法将对象集划分成A份(A+忘ti),其中每个划分均代 表一个聚类。所形成的聚类将使得一个客观划分标准(常称为 相似函数,如距离)最优化,从而成为一个聚类中的对象又有 相似性,而不同聚类中的对象存在较大差异。

间隔数值属性描述对象之间的差异(或相似)程度是通过 计剪相应两个对象间的距离来确定的。在谱多计算方法中,最 常用的欧氏距离(Euclidean Distance)计算公式如(4.2)式 所示:

}) = ( Uii – Xji r + \x,^ – Xj2 |2 + + \x-p – X访 |2)丨”

(4.2)

考虑到各属性重要程度可能不同,需要对每个变设赋予权重,如分别赋予W|,IV 公式如(4.3)式所示

= C«’l ki –  U.2 – |2 + …

+ % kp |2) ■乃       (4.3)

从n个数据对象中任意选择k个对象作为初始聚类中心, 而对于剩余的(n-k)个对象,计算每个对象分别与(•个对象 (初始聚类中心)的欧氏距离,将每个对象归类于最小距离所在 的个初始聚类中心之一,因此所有对象得到第一次划分。然 后再计群每个所获新聚类的中心(该聚类中所有对象的均值), 不断重复距离计算和归类划分,直到标准测度函数开始收敛 为止。

第一,任意选择个样本点作为初始聚类中心,(1), (1),-,-^, (1),括号内为寻找聚类中心的次序号。

第二,把待分类的样本点按照最小距离原则逐个分配给聚 类中心的某个⑴,若当!■=_/时,即2,⑴=mini [| x-z^t) ||, >1,2,…,A|,则:ceS/f),其中f为迭代次序号,表示第f次迭 代,表示第_/个聚类,聚类中心为Zj。