At the end of this paper, At the end of this paper, we present a summary and prospect on the previous article.

Keywords: Data mining; clustering algorithm; K-means; partition.

目录

1.绪论 5

1.1研究背景和意义 5

1.2国内外研究现状 5

1.3研究内容和研究方法 6

2聚类算法 6

2.1聚类的定义和主要研究的问题 6

2.1.1聚类的定义 6

2.1.2聚类主要研究的问题 7

2.2典型的聚类方法 7

2.2.1基于划分的聚类方法 7

2.2.2基于层次的聚类方法 8

2.2.3基于密度的聚类方法 8

2.2.4基于网格的聚类方法 9

2.2.5基于模型的聚类方法 9

3.K-means算法 9

3.1K-means聚类算法描述 9

3.1.1K¬-means聚类算法基本思想 10

3.1.2 K-means聚类算法主要流程 10

3.2 K-means 聚类算法研究现状 11

3.3 K-means聚类算法应用举例 12

3.3.1 K-means聚类算法二维数据的聚类应用 12

3.3.2 K-means文档聚类算法的应用 14

3.4 K-means聚类算法的主要缺陷分析 17

4.总结与展望 18

参考文献 19

致谢 20

1.绪论

1.1研究背景和意义

近年来,随着计算机科学和信息技术的高速发展,在银行、保险业、移动通信生物技术、金融投资等行业每天都会有数以千计万计的数据在产生,大型数据库的应用,以及数据库的应用范围和深度在不断扩大,大数据时代已经到来。海量的数据蕴含了各种各样的,光凭人的直和经验无法获取的重要信息。如今,人们面临的主要问题不再是缺乏信息可以利用,而是如何从能够众多的资源数据中发现有用的信息,在数据分析的基础上进行科学探索、医学研究或者企业管理等活动。在此基础上,出现了数据挖掘与信息发现技术,并取得了蓬勃的发展,显示了强大的生命力。

数据挖掘是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘就是从大量的数据中揭示出其隐含的、先前未知的,并且是具有潜在利用价值的信息的过程。本文将介绍数据挖掘中非常重要的一个分支聚类算法分析。

1.2国内外研究现状

聚类分析作为统计学中的一个重要分枝,已经有几十年的研究历史了,目前研究人员所进行的研究主要是集中在基于距离的聚类分析上,为大型数据库的有效使用和实际的聚类分析寻求最适当的方法,目前的研究方向主要包括:(1)算法对初始值的选择敏感度问题;(2)提高算法效率的问题;(3)基于不同数据库的算法研究问题等。

K-means聚类算法是最常见的聚类算法之一。因结构简单、快速高效且适用于处理大数据集,在众多科研领域得到广泛的应用。但它同时一也存在着一些缺陷和不足,例如聚类数目K 值需事先给定、聚类结果对初始聚类中心的选取敏感、易陷入局部最优解、难以发现球状簇以外其他形状的簇、对孤立点数据十分敏感等问题。在 K-means聚类算法的发展过程中,为了弥补它的缺陷和不足,国内外的研究人员提出了各种各样的有效改进措施,在众多科研领域获得了广泛的应用。

上一篇:VB+access某钢铁企业能源数据库的设计+源代码+答辩PPT
下一篇:大型机的外汇业务管理系统的设计与实现挂牌外汇对私外汇业务

采用颜色共生矩阵的图像分析技术实现

基于深度学习的目标识别算法研究

智能算法的海上应急救援基地选址优化设计

基于SNA的唐诗关系分析

C#古钱币拍卖网站分析与设计

基于启发式算法的智能路径规划研究

中小企业云计算应用的策略SOWT分析

淮安市老漂族心理与休闲体育现状的研究

人事管理系统开题报告

林业机械作业中的安全性问题【2230字】

大学生就业方向与专业关系的研究

弹道修正弹实测弹道气象数据使用方法研究

小学《道德与法治》学习心得体会

组态王文献综述

适合宝妈开的实体店,适...

浅谈动画短片《天降好运》中的剧本创作

紫陵阁