爬虫像正常人一样访问每个页面,只是非常快速地添加索引页面列表。当页面包含超链接(链接到另一页)时,它会自动添加到爬虫发现的页面列表中。索引是将您抓取的所有数据都放入一个大型数据库中的过程。
想象一下,试着列出你拥有的所有书籍,他们的作者和页数。仔细阅读每本书的内容就是抓取并编写列表,这就是索引。但是在搜索引擎中它不仅仅是一个充满书籍的空间,而是全世界的每一个图书馆。所有这些数据都存储在数以千计的PB级驱动器的大型数据中心中。
搜索的最后一步就是我们所看到的,键入关键字搜索查询,然后搜索引擎会尝试匹配与查询最为匹配的最相关的文档。这是最复杂的一步,一些使用关键字,一些允许提出的问题,另一些则包括高级功能,如关键字邻近或按内容年龄过滤。排名算法检查您的搜索查询与数十亿页以确定每个网页的相关程度。这项操作非常复杂,以至于公司将自己的排名算法作为行业机密来保存。Google有一个网站解释了它的搜索引擎的工作原理,但他们不会告诉我们Google的排名算法是如何工作的。
1.2 主流搜索引擎
本节将通过回顾目前三大主流搜索引擎的发展史来看搜索引擎的发展史。
1.2.1 Google
1996年1月,拉里·佩奇和谢尔盖·布林还是美国吉利福尼亚州斯坦福大学的理学博士生,拉里·佩奇和谢尔盖·布林在斯坦福大学正在研究一项最新的性的关于搜索的项目。他们所研究的项目是完全不同于当时传统搜索引擎的算法,根据关键字在页面中出现次数来进行结果排序的方法。
拉里·佩奇和谢尔盖·布林合力开发出一个对不同网站之间的关系进行精确分析的搜索引擎,他们将这个搜索引擎起名为PageRank。PageRank引擎最重要的功能是通过检查网页中的反向链接,从而评估该网页的重要性,PageRank引擎的精确度完胜于当时搜索技术。
拉里·佩奇和谢尔盖·布林直到后来将PageRank改名为“Google”。Google来源于一个数学大数googol(数字1后有100个0,即自然数10100)单词错误的拼写方式,Google象征着为人们提供搜索海量优质信息的决心。后来Google搜索引擎在斯坦福大学的网站上启用,域名为google.stanford.edu。
1997年9月15日,拉里·佩奇和谢尔盖·布林两人注册了Google的域名。1998年9月4日加州门罗帕克,拉里·佩奇和谢尔盖·布林在一位朋友家的车库中创建了Google公司,同为斯坦福大学的博士生的克雷格·西尔弗斯坦(Craig Silverstein)是Google公司的首位雇员。