国内的百度、搜狐、新浪等就用的是类似国外的Inktomi 搜索引擎的技术,提供给包括LookSmart、Overtrure、HotBot、MSN 等在内的搜索引擎全文网页搜索的服务,但它本身并不直接面向用户。
1.2 网络数据抓取系统的分类网络数据抓取系统种类繁多,按照部署位置可分为:客户端:适合部署定主题的数据抓取系统(也叫聚焦爬虫)。实现一个可以与百度或者谷歌等竞争的综合性搜索引擎,其成功的机率是非常小的,但是比价服务、推荐引擎或者垂直搜索的机会便要多得多,比如提取商品价格信息、提取黄页信息或提取竞争对手的广告信息等, 种类数据抓取系统可部署非常多且具有侵略性,同时由于客户端 IP 地址为动态地址,很难被目标网站封锁,因此降低了大量部署的成本[8]。服务器侧:一般为多线程程序,可用 JAVA、PHP、PYTHON 等编写,具有同时下载多个目标HTML 的特点,一般的综合搜索引擎的数据抓取便是这么做的。然而,很可能会被对方封掉服务器 IP,由于服务器IP 不易更改,因此耗用宽带费用较贵。

上一篇:PHP+mysql自由行旅游网站的设计+源代码+答辩PPT
下一篇:php+mysql大学众筹网站分析设计+源代码

IEEE802.15.4网络自适应策略研究

152mm口径榴弹炮内弹道数据库设计

基于高斯过程动态模型的时序数据恢复方法

MATLAB基于流形学习与神经网络的预测建模

社交网络个性化推荐方法对比研究

大数据时代下电子商务个性化信息服务研究

jsp+mysql网络招标评审系统设计+源代码

压疮高危人群的标准化中...

STC89C52单片机NRF24L01的无线病房呼叫系统设计

上海居民的社会参与研究

基于Joomla平台的计算机学院网站设计与开发

AES算法GPU协处理下分组加...

提高教育质量,构建大學生...

浅谈高校行政管理人员的...

酵母菌发酵生产天然香料...

从政策角度谈黑龙江對俄...

浅论职工思想政治工作茬...