数据挖掘的目标是从数据中发现隐含的、有意义的知识。
1. 概念描述
概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。
l特征性描述:用于描述某类对象的共同特征。
l区别性描述:用于描述不同类对象之间的区别。电脑入门
2. 关联分析
数据关联是数据中存在的一类重要的可发现的知识,若两个或多个变量之间存在着某种规律性,就称为关联。关联分析的目的就是找出数据中隐藏的关联网。
3. 分类和预测
l分类:就是依照所分析对象的属性分门别类、加以定义、建立类组。关键是确定对数据按照什么标准或规则进行分类。
l预测:利用历史数据建立模型,再运用最新数据作为输入值,获得未来变化的趋势或评估给定样本可能具有的属性值或值的范围。计算机基础知识
4. 聚类分析
聚类分析又称无指导学习,其目的在于客观地按被处理对象的特征分类,将有相同特征的对象归为一类。
聚类不同与分类,分类规则需要预先定义类别和训练样本,而聚类分析直接面向原数据,没有预先定义好的类别和训练样本,所有记录都根据彼此相似程度来加以归类。计算机
5. 趋势分析
又称时间序列分析,它是从相当长的时间的发展中发现规律和趋势。趋势分析和关联分析相似,都是为了挖掘出数据之间的联系,但趋势分析的侧重点在于分析数据间的前因后果关系。计算机
6. 孤立点分析
孤立点是指数据库中包含的一些与数据的一般行为或模型不一致的数据。
大部分的数据挖掘方法将孤立点是为噪声或异常丢弃,而对于某些应用,如欺骗检测,孤立点数据可能更有价值。
7. 偏差分析
偏差分析又称比较分析,它是对差异和极端特例的描述,用于揭示事物偏离常规的异常现象。
偏差检测的基本方法是:寻找观测结果与参照值之间有意义的差别。