CRM试用热线:400-600-7912
>>>

数据清洗和变换

书果用按比例分配的方法,即按各层 观察单位数占总体观察单位数N比例抽取样本,使各层样本 含最n,与样本总含量》之比等于各层观察单位数与总体观察 单位数yv之比。采用按比例分层抽样时,所得均数或比例是自 动加权的。样本位分配可按(4.1)式计货:

n/n^N/N  (4.1)由于被调查的公司对原始数据保密性的要求,在此只给出 抽样结课,即获得的样本数目为476个。

4.3.2.2数据清洗和变换

由于电信行业的特性,一般的电信企业都建有客户数据库, 但现实中的大型数据库或数据仓库中的数据存在不完整、含噪 声和不一致等特征。因此,数据库中的数据并非天生适于进行 数据挖掘。数据沾理要做的工作是填充空缺值、识别孤立点、 淸除噪声,并纠正数据库中的不一致。数据变换是将数据转换 成适合于挖掘的形式,可能涉及数据平滑、聚藥、数据概化、 规范化、属性构造等内容。

由于本节所选用的变位的属性相同,都是数值型,且均为 大于等于零的非负数,只需要迹行数据清理,无需数据转换。 数据清理主要是对空缺值、噪声数据和不一致数据的处理。空 缺值的处理方法一般包括忽略元组、人工填写空缺值、使用一 个全局常量填充空缺值、使用属性的平均值填充空缺值、使用 与给定元组属同一类的所有样本的平均值填充空缺值、使用最 可能的值填充空缺值。本节的空缺值数据采用的是属性平均值 填充空缺值方法。