毕业论文
计算机论文
经济论文
生物论文
数学论文
物理论文
机械论文
新闻传播论文
音乐舞蹈论文
法学论文
文学论文
材料科学
英语论文
日语论文
化学论文
自动化
管理论文
艺术论文
会计论文
土木工程
电子通信
食品科学
教学论文
医学论文
体育论文
论文下载
研究现状
任务书
开题报告
外文文献翻译
文献综述
范文
轨道交通自动售检票系统AFC数据分析(8)
(2)时序模式
通过时间序列搜索出重复发生概率较高的模式。这里强调时间序列的影响。在时序模式中,需要找出在某个最小时间内出现比率一直高于某一最小百分比(阀值)的规则。这些规则会随着形式的变化做适当的调整.时序模式中,一个有重要影响的方法是“相似时序”。用“相似时序”的方法,要按时间顺序查看时间事件数据库,从中找出另一个或多个相似的时序事件。
(3)聚类
数据库中的记录可被化分为一系列有意义的子集,即聚类。在同一类别中,个体之间的距离较小,而不同类别上的个体之间的距离偏大。聚类增强了人们对客观现实的认识,即通过聚类建立宏观概念。聚类方法包括统计分析方法,机器学习方法,神经网络方法等。80年代初,Michalsky提出的概念聚类技术及其要点是,在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面性。
(4)分类
分类是数据挖掘中应用最多的任务。分类是找出一个类别的概念描述,它代表了这类数据的整体信息,既该类的内涵描述。一般用规则或决策树模式表示。该模式能把数据库中的元组影射到给定类别中的某一个分类组当中。一个类的内涵描述分为特征描述和辨别性描述。特征描述是对类中对象的共同特征的描述。辨别性描述是对两个或多个类之间的区别的描述。特征描述允许不同类中具有共同特征。而辨别性描述对不同类不能有相同特征。辨别性描述用的更多。分类是利用训练样本集(己知数据库元组和类别所组成的样本)通过有关算法而求得。
目前,分类方法的研究成果较多,判别方法的好坏,可从三个方面进行:①预测准确度(对非样本数据的判别准确度)、②计算复杂度(方法实现时对时间和空间的复杂度)、③模式的简洁度(在同样效果情况下,希望决策树小或规则少).在数据库中,往往存在噪声数据(错误数据)、缺损值、疏密不均匀等问题。他们对分类算法获取的知识将产生坏的影响。
(5)偏差检测
数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。
(6)预测
预测是利用历史数据找出变化规律,建立模型,并用此模型来预测未来数据的种类,特征等。典型的方法是回归分析,即利用大量的历史数据,以时间为变量建立线性或非线性回归方程。预测时,只要输入任意的时间值,通过回归方程就可求出该时间的状态。
近年来,发展起来的神经网络方法,如模型,它实现了非线性样本的学习,能进行非线性函数的判别。
分类也能进行预测,但分类一般用于离散数值。回归预测用于连续数值。神经网络方法预测既可用于连续数值,也可以用于离散数值。
3.2.2 数据挖掘过程
数据挖掘过程是指一个完整的过程,该过程从大型数据库中挖掘先前未知的、有效的、可实用的信息,并使用这些信息做出决策或丰富知识。适合数据挖掘过程的数据挖掘环境如图3-l所示。
图3-1数据挖掘过程的环境
数据挖掘过程,通常包括数据准备、数据挖掘、信息表示和分析决策。同时它也是个不断反复的过程。数据挖掘过程的流程如图3-2所示。
图3-2数据挖掘过程的流程
(1)数据收集
大量丰富的数据是数据挖掘的前提,没有数据,数据挖掘也就无从谈起。因此,数据收集是数据挖掘的首要步骤。数据可以来自于现有事务处理系统,也可以从数据仓库中得到。
共12页:
上一页
1
2
3
4
5
6
7
8
9
10
11
12
下一页
上一篇:
AT89S52单片机智能除湿器控制系统的设计
下一篇:
PIC24FJ128GA010电子万年历设计+电路图+源程序
城市轨道交通行车组织相关问题研究
基于51单片机自动门智能控制系统设计
plc空压机循环冷却水自动...
PLC物料自动分拣系统的设计+源程序
太阳能电站的自动跟踪系...
plc化工传热单元的自动控制设计+梯形图
三角架自动矫正机PLC控制程序设计+梯形图
拉力采集上位机软件开发任务书
高校网球场馆运营管理初探【1805字】
中国古代秘书擅权的发展和恶变
《醉青春》导演作品阐述
辩护律师的作证义务和保...
国内外无刷直流电动机研究现状
谷度酒庄消费者回访调查问卷表
浅谈新形势下妇产科护理...
浅谈传统人文精神茬大學...
多元化刑事简易程序构建探讨【9365字】