1.3.1 Google 8
1.3.2 Bing 9
1.3.3 百度 10
2 项目框架介绍 11
2.1 SCRAPY 11
2.1.1 Scrapy爬虫框架介绍 11
2.1.2 Xpath 11
2.2 ELASTICSEARCH 12
2.2.1 Elasticsearch搜索框架介绍 12
2.3 DJANGO 13
2.3.1 Django框架介绍 13
3 课题结构详解 16
3.1 爬虫(SPIDER) 16
3.1.1 基础架构设计 16
3.1.2 爬取算法 21
3.1.3 储存爬取数据 22
3.2 ELASTICSEARCH 23
3.2.1 建立索引 23
3.2.2 对数据进行存储 23
3.3 DJANGO 25
3.3.1 基础架构设计 25
3.3.2 后端设计 26
3.3.3 前端设计 27
4 结论 29
4.1 爬虫运行 29
4.2 数据存储 29
4.3 搜索结果 29
1 绪论
本课题名为计算机专业文章搜索引擎,在日常学习与生活中我们早已离不开搜索引擎,不论是学习或是生活中遇到问题,第一时间就会使用搜索引擎来查找答案,搜索引擎早已成为了我们生活中离不开的部分,而我们早已养成了遇到问题就使用搜索引擎的习惯。由于众所周知的原因,中国由百度搜索引擎一家独大,搜索引擎作为现代互联网重要的入口,百度的所作所为似乎并不能让人满意,从“魏则西事件”到我们每天使用百度搜索引擎所出现的广告,甚至是诈骗钓鱼网站,百度早已失去了搜索引擎原本的初衷,在巨大商业利益的面前,百度似乎早已迷失了方向。但是,我们早已离不开搜索这一互联网世界的入口,当我们需要查找学习资料时,我们陷入了纠结,既不能使用Google又不想使用百度,所以在这种情况下我想设计这样的一款搜索引擎,只针对计算机专业的文章进行搜索。
1.1