目录 III

图清单 III

1 综述 1

1。1 背景及意义 1

1。2 研究内容 2

1。3 相关技术介绍 4

2 基于网络爬虫技术的个性化企业信息获取方法研究 6

2。1 爬虫的简介 6

2。2 理解URL 6

2。3 通过URL抓取网页 7

2。4 网页抓取策略 8

3 HTML页面解析 10

3。1 理解HTML 10

3。2 解析方法 10

3。3 乱码问题的产生及获取 11

3。4 页面内容获取 11

4 企业公共信息抓取系统设计 14

4。1数据库设计 14

4。2 信息抓取流程 16

4。3 代码架构与分析 16

5 企业公共信息抓取系统效果与数据分析 29

5。1 信息抓取情况 29

5。2 系统效果展示与数据分析 29

总结与展望 33

参考文献 34

致  谢 36

图清单

图序号 图名称 页码

图1-1 Navicat界面 5

图2-1 爬虫示例图 6

图2-2 文件源码例子 8

图2-3 Hbzj(环保总局)文件 8

图2-4 遍历示例 9

图3-1 Html页面 11

图3-2 局部页面对应的源代码 11

图3-3 源码中的需求信息示例 12

图4-1 数据库建表信息 13

图4-2 行政处罚信息E-R图 14

图5-1 抓取的数据展示 28

图5-2 用户登录页面

29

图5-3 用户登录流程图 28

图5-4 权限管理页面

30

图5-5 新闻管理页面 30

图5-6 管理员用例图 31

图5-7 用户用例图 31

图5-8 数据分析结果

上一篇:jsp+mysql学生党建管理系统的设计与实现
下一篇:jsp+mysql企业人事管理信息系统的设计与实现

基于android的环境信息管理系统设计

ASP.NET飞翔租贷汽车公司信...

Android员工请假系统设计

高校校园网信息安全隐患及防范措施

大数据时代下电子商务个性化信息服务研究

java+mysql学术会议参会信息系统的设计+源代码

中小企业云计算应用的策略SOWT分析

提高教育质量,构建大學生...

压疮高危人群的标准化中...

基于Joomla平台的计算机学院网站设计与开发

浅谈高校行政管理人员的...

酵母菌发酵生产天然香料...

上海居民的社会参与研究

STC89C52单片机NRF24L01的无线病房呼叫系统设计

从政策角度谈黑龙江對俄...

浅论职工思想政治工作茬...

AES算法GPU协处理下分组加...