摘要:随着Internet的快速发展,互联网上产生了海量的信息,为人们提供了极其丰富的信息资源,但正是由于这种信息快速增长的情况,一个普通网页上的内容往往除了主题文本外,还有诸如图片、链接、广告等与主题文本无关的“噪音信息”,这些“噪音信息”通常会干扰人们获取该网页的主题内容。本毕业论文针对主题型网页,基于HTML标签窗实现网页正文的初步提取,利用正则表达式去除“噪音信息”,最后对提取内容进行标签去除,实现了网页正文的提取。为了进一步提高网页正文提取的精度,利用余弦算法计算提取出的网页正文与网页标题的相似度。测试结果表明该方法能够较好地实现网页正文的提取。20512
关键词:网页正文;HTML;相似度;信息提取.
Webpage Text Extraction Optimization based on the Correlation between Text and Title of a Webpage
Abstract: With the rapid development of the Internet, a large quantity of information has been generated on the Internet, which provides abundant information resources for us. However, a webpage is generally composed of some "noise information" besides useful information, such as pictures, hyperlinks, advertising and so on, which will disturb human to get useful information from the webpage. To solve this problem and extract useful text from a webpage efficiently, this paper first uses the HTML tag window technology to extract text from the webpage preliminarily, then uses Regular Expression to remove the “noise information” of the webpage, finally remove the HTML Tags. To further increase the precision of text extraction, the paper takes advantage of Cosine algorithm to calculate the similarity between the extracted and the title of the webpage. Test results show that the method can work well in text extracting from a webpage.
Keywords:    Webpage Text; HTML; Similarity; Information Extraction.
目   录
1    绪论    1
1.1    选题背景    1
1.2    研究意义    2
1.3    研究现状及存在的问题    2
1.4    论文研究的内容及结构    3
2    相关知识及技术    4
2.1    信息抽取    4
2.2    HTML    4
2.3    正则表达式    6
2.4    JAVA    8
3    网页正文提取方法    9
3.1    网页正文的定义    9
3.1.1    主题型网页    9
3.1.2    导航型网页    9
3.2    各类网页正文提取方法    10
3.2.1    基于HTML的网页正文提取方法    10
3.2.2    基于DOM树的网页正文提取方法    10
3.2.3    基于内容的网页正文提取方法    11
3.2.4    基于模版的网页正文提取方法    12
3.2.5    基于视觉的网页正文提取方法    12
3.2.6    基于数据挖掘/机器学习的网页正文提取方法    13
3.3    本章小结    13
4    网页正文提取优化方法    14
4.1    正文    14
4.2    精确标题    14
4.3    正文主题相似度的计算    14
4.3.1    文本相似度    14
4.3.2    正文主题相似度的计算方法    15
上一篇:iOS平台个⼈移动地图的设计与应⽤
下一篇:ASP.net企业客户信息管理系统CRM设计+文献综述

基于android的环境信息管理系统设计

基于激光超声检测金属材...

基于MOODLE平台的在线交互式学习设计

基于离散事件系统Petri网模型的可达图研究

基于高斯过程动态模型的时序数据恢复方法

基于深度学习的目标识别算法研究

MATLAB基于流形学习与神经网络的预测建模

从政策角度谈黑龙江對俄...

压疮高危人群的标准化中...

基于Joomla平台的计算机学院网站设计与开发

浅论职工思想政治工作茬...

STC89C52单片机NRF24L01的无线病房呼叫系统设计

酵母菌发酵生产天然香料...

上海居民的社会参与研究

浅谈高校行政管理人员的...

AES算法GPU协处理下分组加...

提高教育质量,构建大學生...