毕业论文
计算机论文
经济论文
生物论文
数学论文
物理论文
机械论文
新闻传播论文
音乐舞蹈论文
法学论文
文学论文
材料科学
英语论文
日语论文
化学论文
自动化
管理论文
艺术论文
会计论文
土木工程
电子通信
食品科学
教学论文
医学论文
体育论文
论文下载
研究现状
任务书
开题报告
外文文献翻译
文献综述
范文
网络特定文本信息抓取及统计(12)
string HTML0 = httpClient.GetString();
string HTML;
HTML=PatternMatch.NormalPatternMatch(HTML0,"<p class=\"result\" id=\"result\">(.|\n)+</p>");
List<string> searchresullist = PatternMatch.MultiPatternMatch(HTML, "<p class=\"r-info|(\\sr-info\\d)\">(.|\n)*?</p>",true);
for (int ii = 0; ii < searchresullist.Count; ii++)
{
Sina sinaResult = new Sina();
sinaResult._RawString = searchresullist[ii];
urlList.Add(sinaResult);
}
for (int ii = 0; ii < urlList.Count; ii++)
{
urlList[ii].Analysis();
for (int ii = urlList.Count-1; ii >= 0; ii--)
{
if (urlList[ii]._Abstract == null)
{
urlList.RemoveAt(ii);
}
}
}
4.3 分词统计与分析模块详细设计
4.3.1 分词系统概述
分词系统主要是将一个语句切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。本文就是利用分词系统将新浪新闻的摘要内容进行分析。
分析统计将新浪新闻摘要中分词后提取的所有关系动词出现的具体次数记录下来,并以这些关系动词的出现次数的次数用冒泡法做排序。
共15页:
上一页
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
下一页
上一篇:
ASP.net+sqlserver旅游信息网站设计+ER图
下一篇:
ASP.net小型网上书店的设计与实现
IEEE802.15.4网络自适应策略研究
MATLAB基于流形学习与神经网络的预测建模
社交网络个性化推荐方法对比研究
jsp+mysql网络招标评审系统设计+源代码
基于生物启发神经网络的AUV三维路径规划
SOM神经网络多机器人任务分配算法研究
jsp游戏购买系统设计
STC89C52单片机NRF24L01的无线病房呼叫系统设计
上海居民的社会参与研究
浅谈高校行政管理人员的...
从政策角度谈黑龙江對俄...
基于Joomla平台的计算机学院网站设计与开发
压疮高危人群的标准化中...
浅论职工思想政治工作茬...
AES算法GPU协处理下分组加...
酵母菌发酵生产天然香料...
提高教育质量,构建大學生...