国内的百度、搜狐、新浪等就用的是类似国外的Inktomi 搜索引擎的技术,提供给包括LookSmart、Overtrure、HotBot、MSN 等在内的搜索引擎全文网页搜索的服务,但它本身并不直接面向用户。
1.2 网络数据抓取系统的分类网络数据抓取系统种类繁多,按照部署位置可分为:客户端:适合部署定主题的数据抓取系统(也叫聚焦爬虫)。实现一个可以与百度或者谷歌等竞争的综合性搜索引擎,其成功的机率是非常小的,但是比价服务、推荐引擎或者垂直搜索的机会便要多得多,比如提取商品价格信息、提取黄页信息或提取竞争对手的广告信息等, 种类数据抓取系统可部署非常多且具有侵略性,同时由于客户端 IP 地址为动态地址,很难被目标网站封锁,因此降低了大量部署的成本[8]。服务器侧:一般为多线程程序,可用 JAVA、PHP、PYTHON 等编写,具有同时下载多个目标HTML 的特点,一般的综合搜索引擎的数据抓取便是这么做的。然而,很可能会被对方封掉服务器 IP,由于服务器IP 不易更改,因此耗用宽带费用较贵。

上一篇:PHP+mysql自由行旅游网站的设计+源代码+答辩PPT
下一篇:php+mysql大学众筹网站分析设计+源代码

床旁智能交互系统HL7标准接口数据同步的实现

IEEE802.15.4网络自适应策略研究

152mm口径榴弹炮内弹道数据库设计

基于高斯过程动态模型的时序数据恢复方法

MATLAB基于流形学习与神经网络的预测建模

社交网络个性化推荐方法对比研究

大数据时代下电子商务个性化信息服务研究

发酵米粉优势菌株的发酵特性研究

浅谈农村大气环境保护的制度构建【1868字】

2021年什么行业赚钱,适合...

淮安市高校足球运动损伤问卷调查表

肢体语言在小学英语教学中的应用浅谈

大淘宝网的虚假交易研究

日语论文中日酒文化对比研究

个案管理茬老年糖尿病患...

激光模拟训练器材国内外研究现状

新疆农林高校學生昆虫生...