图4.1 系统功能模块图
1)    网页内容抓取模块,即网页数据获取,功能:主要通过与新浪门户的交互,对新浪新闻搜索的文本摘要获取,并对其进行分析。
2)    显示抓取信息文本模块,功能:显示新浪新闻搜索到的每条新闻摘要的基本信息,包括发布机构、时间等信息,利用C#中DATAGRIDVIEW控件显示。
3)    保存指定日期的文本模块,功能:选择显示出来的摘要文本的日期,利用office接口,将这个日期的新闻摘要以word的形式保存到根目录下,以供以后的查阅。
4)    分析统计与显示模块,功能:对摘要段文字分词,并对这些分词进行分析统计,利用冒泡法对出现的次数进行排序。最后通过TEXBOX控件将分词与统计结果显示来。
5)    根据分析结果绘制图表,功能:将分析统计中的分析结果,动词及其出现的次数,以三种形式绘制成图表。
4.2 网页内容抓取模块详细设计
4.2.1 网页内容抓取概述
网页内容抓取,即文本数据源的获取,主要是网页分析,通过对某网页内容的源代码进行分析,通过编程软件获取指定网页内容的设计过程。首先我们必须了解网页的基本格式,熟知HTML。HTML即超文本标记语言或超文本链接标示语言,是目前网络上应用最为广泛的语言,也是构成网页文档的主要语言。HTML文本是由HTML命令组成的描述性文本,HTML命令可以说明文字、图形、动画、声音、表格、链接等。HTML的结构包括头部(Head)、主体(Body)两大部分,其中头部描述浏览器所需的信息,而主体则包含所要说明的具体内容。
熟悉了网页的基本格式,利用C#程序开发软件就能对网页进行分析处理,整理出网页的结构,获取本文所需要的大量文档。
4.2.2 网页内容分析抓取模块流程
图4.2 网页分析流程图
4.2.3 网页内容抓取部分变量
表4.1 网页分析代码部分变量定义
序号    名称    类型    说明
1    URL    Sting    网页地址
2    NewsResource    Sting    新闻来源
3    NewsTime    Sting    新闻发布时间
4    Abstract    Sting    新闻摘要
4.2.4 网页内容获取核心代码
   public SinaNewsSearch(string searchPhrase, int sinaResultLimit)
        {
            SearchPhrase = searchPhrase;
            SinaResultLimit = sinaResultLimit;
        }
        public void ExcuteSearch()
        {
            try
            {
                string phrase = SearchPhrase;
                phrase = HttpUtility.UrlEncode(phrase, Encoding.Default);
                string searchurlprefix = "http://search.sina.com.cn/?c=news&q=" + phrase +   "&range=all&num=20";
                    HttpClient httpClient = new HttpClient(searchurlprefix);          
上一篇:ASP.net+sqlserver旅游信息网站设计+ER图
下一篇:ASP.net小型网上书店的设计与实现

IEEE802.15.4网络自适应策略研究

MATLAB基于流形学习与神经网络的预测建模

社交网络个性化推荐方法对比研究

jsp+mysql网络招标评审系统设计+源代码

基于生物启发神经网络的AUV三维路径规划

SOM神经网络多机器人任务分配算法研究

jsp游戏购买系统设计

STC89C52单片机NRF24L01的无线病房呼叫系统设计

上海居民的社会参与研究

浅谈高校行政管理人员的...

从政策角度谈黑龙江對俄...

基于Joomla平台的计算机学院网站设计与开发

压疮高危人群的标准化中...

浅论职工思想政治工作茬...

AES算法GPU协处理下分组加...

酵母菌发酵生产天然香料...

提高教育质量,构建大學生...