目次
_Toc1521
1绪论.1
1.1研究的背景及意义....1
1.2数据处理平台的应用与发展...3
1.3论文结构3
1.4本章小结4
2关键技术介绍5
2.1网络爬虫5
2.2ReactJS...6
2.3Spring6
2.4Hadoop分布式存储..7
2.5Spark分布式数据处理..9
2.6本章小结9
3机器学习算法研究10
3.1BP神经网络算法....10
3.2K-means聚类算法..12
3.3本章小结17
4平台框架设计...18
4.1数据平台框架设计..18
4.2服务层框架设计.19
4.3数据层结构设计.20
4.4本章小结...22
5平台详细设计...23
5.1内部服务模块设计..23
5.2数据采集爬虫设计及实现26
5.3本章小结...28
结论.29
致谢.30
参考文献.31
1 绪论 绪论部分首先介绍研究的背景和意义,这一节将分别介绍数据采集、数据存储、数据挖掘和数据展示四大模块。其次介绍了数据处理平台未来的应用方向。最后介绍本文的主要工作和论文的结构。
1.1 研究的背景及意义 本节将逐一介绍数据处理平台的数据采集、数据存储、数据挖掘和数据展示四个模块的研究背景及意义。
1.1.1 数据采集 数据采集是指通过HTTP 等网络协议有针对性地获取互联网资源数据,并将最终采集的数据按照特定的规则分类存储的一个过程。 目前,采集网络数据的方式基本上为以下几类,网络爬虫(数据采集机器人)、分词系统、任务与索引系统等。研究人员通过上述几类方法对互联网的海量数据进行分类采集,将采集后的数据再进行二次分类,使得网络数据能够在特定专业领域发挥它的最大价值[1]。 其中,网络爬虫技术是数据采集技术中最核心的部分,任何网络数据采集模式都需要用到网络爬虫技术。第二章的关键技术介绍将对网络爬虫进行详细介绍。