8

3。1  数据抓取的准备 8

3。2  如何抓取数据 8

3。2。1 Html 代码的下载 8

3。2。2 NSoup 解析 Html 9

3。2。3  抓取的逻辑顺序 10

3。3  导入数据库 11

3。3。1  数据库表的设计 11

3。3。2 使用 EntityFramework 操作数据 12

第四章 数据可视化 14

4。1  数据还原 14

4。1。1  数据还原的目的 14

4。1。2  数据还原 14

4。1。3  搜索功能 15

4。2  个人信息分析 17

4。2。1  博主擅长领域 17

4。2。2  博主活跃期 18

4。3  整站数据分析 19

4。3。1  博主数据对比 19

4。3。2  关联信息分析 21

第五章 性能优化 23

5。1  程序的健壮性 23

5。1。1  异常处理 23

5。1。2  单元测试 24

5。2  程序运行效率 25

5。2。1  抓取网页去重 25

5。2。2  批量处理数据 26

5。2。3  数据持久化 27

结 论 28

致 谢 29

参 考 文 献 30

附 录

第一章 绪论

1。1 研究背景

数据挖掘[1]之所以在近几年颇受关注与互联网发展的阶段有关。随着网页的增多, 用户量达到一定规模,就产生了大量用户和网页应用交互的行为,这些数据实际上 非常有意义。互联网也因此形成了两条主线结构。一种是以信息为对象的,还有一 种是以人为对象。但是人与信息之间不是割裂的,而是时时刻刻交织在一起,而且 信息是通过人流动的,人也在流动的信息中构建新的关系,这催生了如 Facebook 这样类型的网站。数据挖掘被频频提及,并不是资本操作的结果,而是随着互联网 发展的进一步深化,原本被大家忽略的数据挖掘的价值逐渐凸显,例如,提高广告 投放准确性,提高网站的转化率以及用户再次购买可能性,这些都需要数据挖掘在 背后做支撑,因此这个领域逐渐被大家重视。国外数据挖掘的发展要成熟许多。比 如历史悠久的邮购业务,具备目录式用户库的国外公司,都可以进行数据挖掘。随 着互联网的出现,又自然而然过度到网络数据挖掘的阶段。 论文网

数据挖掘一词首次出现在 1989 年 8 月举行的第 11 届国际联合人工智能学术会 议上。迄今为止,由美国人工智能协会主办的数据挖掘国际研讨会已经召开了 7 次, 规模由原来的专题讨论会发展到国际学术大会,人数由二三十人到七八百人,论文 收录比例从 2X1 到 6X1,研究重点也逐渐从发现方法转向系统应用,并且注重多种 发现策略和技术的集成,以及多种学科之间的相互渗透。 

上一篇:无线传感器网络项目(温室)
下一篇:事件驱动的网络控制系统采样机制和应用

H5动漫社区网站设计

基于android的环境信息管理系统设计

ASP.NET飞翔租贷汽车公司信...

jsp值得买导购网站的设计与实现

java的B2C型电子商务网站管理系统的设计

Android员工请假系统设计

高校校园网信息安全隐患及防范措施

基于Joomla平台的计算机学院网站设计与开发

STC89C52单片机NRF24L01的无线病房呼叫系统设计

AES算法GPU协处理下分组加...

提高教育质量,构建大學生...

上海居民的社会参与研究

压疮高危人群的标准化中...

酵母菌发酵生产天然香料...

从政策角度谈黑龙江對俄...

浅谈高校行政管理人员的...

浅论职工思想政治工作茬...