3.2 课题的整体设计
因此将整体设计分为若干个部分。
第一部分解决网页的解析,下载到本地。如网页中有很多的图片,流媒体,将有用的下载下来并保存在数据库。如果网页中存在超链接,需要采集的数据在网页的超链接中,则需要把超链接对应的网站也下载下来进行分析。
难点在于如何从网页源代码中分析出超链接并再次下载对应网页。
第二部分解决下载到本地的网页的内容的提取及存入数据库,根据HTML源文件的解析技术,将网页源文件中,用户所需要的信息提取出来。因为网页的数据结构不一样,所以要求本地的数据库要是可以由用户自行定义的,如图书信息需要存储书名,作者,出版社等等,天气信息需要存储地点,天气,温度等等,用户可以自行的定义数据库中的各个属性和它们的缺省值。并且选择哪些数据存入数据库,可以由用户人工干预,可以通过扫描网页源代码并设置过滤器,设置某个关键词,当它出现在title或者超链接的名字中时,将所需要的内容下载下来,或着将下载下来的网页文件显示为一个界面,用户可以手工搜索并选取所需要的数据,然后根据用户选择的内容进行入库。
       难点在于信息的过滤,下载下来的数据还有可能因为网页编码的区别而有不同。
       第三部分是数据库操作,包括数据录入,重复判断,数据库显示,删除。
3.3 课题预计使用的语言及平台
     课题预计使用delphi进行编程,配合使用正则表达式及数据库操作语句。
上一篇:汽车虚拟中控平台的仿真与软件实现
下一篇:WSN基于网络编码的无线传感器网络Qos传输机制研究

Android手机考勤平台的设计与实现

基于android的环境信息管理系统设计

java+mysql班级评优系统的设计实现

Python+mysql宠物领养平台的设计与实现

ASP.NET飞翔租贷汽车公司信...

基于激光超声检测金属材...

多频激励下典型非线性系统的振动特性研究

浅谈高校行政管理人员的...

酵母菌发酵生产天然香料...

基于Joomla平台的计算机学院网站设计与开发

浅论职工思想政治工作茬...

STC89C52单片机NRF24L01的无线病房呼叫系统设计

上海居民的社会参与研究

提高教育质量,构建大學生...

压疮高危人群的标准化中...

从政策角度谈黑龙江對俄...

AES算法GPU协处理下分组加...