2.1 正则表达式简介  正则表达式[7] 是一种可以用于模式匹配和替换的强有力的工具,一个正则表达式 就是由普通的字符(例如字符 a到z)以及特殊字符(称为元字符)组成的文字模式, 它描述在查找文字主体时待匹配的一个或多个字符串。正则表达式作为一个模板, 将某个字符模式与所搜索的字符串进行匹配。  正则表达式在字符数据处理中起着非常重要的作用,我们可以用正则表达式完 成大部分的数据分析处理工作,如: 判断一个串是否是数字、是否是有效的  Email  地 址,从海量的文字资料中提取有价值的数据等等,如果不使用正则表达式,那么实 现的程序可能会很长,并且容易出错。对这点本人深有体会,面对大量工具书电子 档资料的整理工作,如果不懂得应用正则表达式来处理,那么将花费很大的时间, 反之则将可以轻松地完成,获得事半功倍的效果。 
2.2 HTMLParser 概述  HTMLParser [8] 是一个开源的Java库,它提供接口,支持线性和嵌套的解析HTML 文本,HTMLParser Libraries 提供了一系列访问本地和网络 HTML 资源的 API。 Htmlparser.jar 提供底层的接口,它负责访问 HTML 中的文本、注释、标签等节点, 并把它们转换成线性的节点。HTMLParser 提供了两种访问节点的方法:Filter 模式 和Visitor 模式。 

上一篇:电子商务网站分类使用中的学习现象研究
下一篇:基于UML的某社团网站系统的建模与设计

基于android的环境信息管理系统设计

ASP.NET飞翔租贷汽车公司信...

Android员工请假系统设计

高校校园网信息安全隐患及防范措施

大数据时代下电子商务个性化信息服务研究

java+mysql学术会议参会信息系统的设计+源代码

JAVA+MYSQL小型超市进销存信...

浅谈高校行政管理人员的...

从政策角度谈黑龙江對俄...

提高教育质量,构建大學生...

酵母菌发酵生产天然香料...

STC89C52单片机NRF24L01的无线病房呼叫系统设计

上海居民的社会参与研究

浅论职工思想政治工作茬...

AES算法GPU协处理下分组加...

基于Joomla平台的计算机学院网站设计与开发

压疮高危人群的标准化中...