CRM试用热线:400-600-7912
>

统计学与数据挖掘的关系

3.1统计学与数据挖掘的关系概述

有很多人认为数据挖掘是统计学的分支,其功能的实现是 统计学方法和技术应用的结果;也有人认为统计学和数据挖掘 有着本质的区别,统计学的方法和技术根本无法实现数据挖掘 的功能。笔者认为这两种观点都略显极端,极力找出统计学与 数据挖掘的本质区别或者抛开计算机技术和其他工具方法的数 据挖掘都不是真正的数据挖掘,甚至可以说是毫无意义的。

20世纪90年代,数据仓库技术诞生,在数据库的基础上应 用机器学习和统计分析相结合的方法处理数据。这种结合促成 了数据挖掘(Data Mining,DM)技术的诞生。由于数据挖掘与 统计学都试图从数据中发现某种结构,从而得到有价值的信息, 所以数据挖掘从诞生时起,就与统计学有了不可分割的联系。 统计学、数据库和人工智能共同枸成数据挖掘技术的三大支柱。 统计学是搜架、展承、分析以及解释数据的科学,统计学并不 是方法的罗列,而是处理数据的科学。数据挖掘是从大量的、 不完全的、有噪声的、模糊的、随机的数据中提取隐含的、事先不为人们所知的、潜在有用的信息和知识的过程。数据挖掘 大部分核心功能的实现都以计泣和统计分析方法作为支播。

数据挖掘本身是多学科交叉科学,应用了统计学、计算机、 数据仓库、神经网络等多种技术。