毕业论文
计算机论文
经济论文
生物论文
数学论文
物理论文
机械论文
新闻传播论文
音乐舞蹈论文
法学论文
文学论文
材料科学
英语论文
日语论文
化学论文
自动化
管理论文
艺术论文
会计论文
土木工程
电子通信
食品科学
教学论文
医学论文
体育论文
论文下载
研究现状
任务书
开题报告
外文文献翻译
文献综述
范文
新浪微博中的话题突变识别与分析研究(3)
(1)话题(Topic):话题一方面是指一个根源事件或者行为,另一方面是指一切跟其有直接性联系的事件或者行为。
(2)事件(Event):事件指的是在某个时间和地点因一定条件及原因造成的某个特例,同时也许会产生一些必然性后果。
(3)报道(Story):报道本身属于一种
新闻
片段,但其跟话题有着密切的联系,通常一篇报道会由两个及以上的各自表述事件的子句组成。
(4)话题识别:话题识别的过程可以简单归纳为将新闻信息进行聚类归纳的过程,即在
系统
中存在各种不一样的话题簇,如若新的新闻报道属于已有话题簇则归入进去,否则需要另外建立一个新的话题簇将其归入。由于系统不能提前知晓话题簇需要的具体数量及建立话题簇的具体时间,该聚类过程只能向前看。与一般聚类中对数据进行全方位聚类不同,话题识别中的实行增量聚类。因此,最后决断前不可以或者只可以往前看特定数目的文本或报道[3]。
基于话题识别中的聚类过程是按照增量方式进行的,该识别过程总结下来主要包括对产生的新事件进行识别和将与之前话题相关的新闻划入同类话题簇中去这两个阶段。可以看出,两个阶段存在密切联系,但也有各自鲜明的特点。前者就是识别出产生的新事件,而话题识别的整个过程就是对此加以延伸。话题识别任务更加强调将新的新闻报道最终划入相应的话题簇中,不在乎是否能准确识别出关于某话题的第一次报道,而在新事件识别中则不同,其需要找出引出某话题的首篇报道。
话题识别在具体研究中通常表现为对事件的聚类,而增量k-means聚类、agglomerative 聚类、单遍聚类等是比较常用的几种聚类手段。许多公司相继开发出各自的话题识别系统,其中IBM公司的一个系统取得了一定的成功,其采用双层聚类的方法,在对报道进行相似性比较时参考了Okapi公式,先把新闻临时放进各种小话题簇中,再在一段时间之后放入到最后的话题簇中去。
2.1.2 话题识别与追踪的任务
话题识别与追踪研究的基础任务主要可以总结为以下5个方面,即报道切分任务(Story Segmentation Task,SST)、话题跟踪(TopicTracking,TT)、话题识别(Topic Detection,TD)、新事件的识别(New Event Detection,NED)、报道关系识别(Story Link Detection,SLD)。而话题识别与追踪又可以分为两个方面,即话题识别(TD)和话题跟踪(TT)。其中,话题识别的任务主要是对未知的话题以及相关的新闻报道进行识别,判断是否属于系统中已有的话题簇,如若属于则归入话题簇中去,否则需要建立一个新的话题簇。不难看出其基本属于一个对新闻报道数据进行聚类研究的过程[2]。而在话题追踪的过程中,一般先给出若干与某一话题相关的新闻报道,然后对新闻信息进行监测,查找出里面与该话题相关的新报道。其原理与检索信息中基于例子的查询以及过滤信息和挖掘数据中对新闻数据流的分类研究有些类似。
2.1.3 话题识别与追踪的关键技术
目前关于话题识别与追踪技术方面的研究工作主要包括话题模型的建立、特征项的选择、话题相似度的计算以及话题聚类。
(1)话题模型的建立。研究话题识别与跟踪技术的基础就是建立话题模型。而空间向量模型以及语言模型等是目前比较常用的几个话题模型,其中的语言模型的设计思路是对某个句子中相关特定词序列的出现概率进行计算[4]。
(2)特征项选择。用字、词和词组等来构成文本的特征项,给予这些特征项各自的权值来反映他们各自的重要性,即重要程度大小与其权值大小成正比。特征频度、布尔权值、TF-IDF、特征频度等是现在比较流行的几种权重计算方法[5]。
共9页:
上一页
1
2
3
4
5
6
7
8
9
下一页
上一篇:
关于网络舆论对行政权力监督的研究
下一篇:
当前我国违法广告现象的考察研究
分析电影《恐怖游轮》中的声音应用
迈克尔哈内克影片中的暴力表现的特点
李安父亲三部曲电影中的父亲形象分析
论家庭伦理剧中的文化冲突
超级英雄电影中的反英雄角色分析
突发事件中的微博舆论演...
奖励式众筹在产品推广中的发展与影响
提高教育质量,构建大學生...
从政策角度谈黑龙江對俄...
压疮高危人群的标准化中...
STC89C52单片机NRF24L01的无线病房呼叫系统设计
浅谈高校行政管理人员的...
浅论职工思想政治工作茬...
上海居民的社会参与研究
基于Joomla平台的计算机学院网站设计与开发
酵母菌发酵生产天然香料...
AES算法GPU协处理下分组加...