毕业论文
计算机论文
经济论文
生物论文
数学论文
物理论文
机械论文
新闻传播论文
音乐舞蹈论文
法学论文
文学论文
材料科学
英语论文
日语论文
化学论文
自动化
管理论文
艺术论文
会计论文
土木工程
电子通信
食品科学
教学论文
医学论文
体育论文
论文下载
研究现状
任务书
开题报告
外文文献翻译
文献综述
范文
社会标签系统挖掘研究中文博客标签及标签云图的自动生成研究(3)
表4. 1 博文类别分布表 16
表4. 2 两种算法的Overlap@N 22
表4. 3 博文1三种标签对比 22
表4. 4 博文2三种标签对比 24
表4. 5 博主个人信息与用户标签 26
1 绪论
1.1 选题背景
社会标签系统是允许用户对网络资源(如照片、博客、链接、地图、视频等)以个性化的关键词(Keywords、Tag),并共享Tag以通过Tag的聚合和相关度来实现信息组织的系统[1]。
博客(Blog)作为一种网络日志的形式,成为网络上的主要应用之一[2]。随着博客的发展,博客页面的数量呈指数级别上升。人们能过Blog发布自己的信息,也可以通过浏览别人的博客了解到自己感兴趣的知识和话题,博客逐渐成为一个人们共同发布信息、传播信息、发现信息的重要途径。
标签是Web2.0的特色元素。Tag(标签)是一种特殊的用户对信息的描述方式,即用户在数字资源上标记的关键字,借此实现对信息的基于关键词的分类和搜索。Tag本身具有非正式和个性化的特征 ——也就是说,Tag不同于传统的、针对文件本身的关键字检索,而是一种模糊化、智能化的分类。
对于博客而言,标签是一种更为灵活、更优越的描述博文的方式,博主在每篇博文中,可以使用自由选择的词汇作为标签(Tag)来对文章进行主题标记,也可以使用机器推荐词汇作为关键词。
1.2 研究意义
我们的前期调研结果表明,目前,绝大多数中文博客网站标签自动推荐的Keyword或Tag效果并不好(如科学网博客 ),有些网站尚缺乏有效的标签云图对标签进行有效组织。图1.1为两个典型的标签云图。
(a) (b)
图1. 1 标签云图
针对目前中文博客系统尚无有效的标签生成系统这一
现状
,本文主要研究如何使得机器自动生成的推荐词汇更加契合文章的主题、并根据博主的一系列博文生成标签云图(Tag-Cloud)。
本文借鉴各种基于文档的关键词抽取技术、特别是多文档关键词提取的技术,选择一个真实的较大规模的数据集,即科学网博客数据集,开发一个文本标签自动生成系统,并在线生成博主每篇博文和全部博文对应的标签云图,以更加直接的方式展示各博主个性化特征。
1.3 本文的研究思路及内容
1.3.1本文的研究思路
本文首先对关键词自动抽取、标签抽取及标签云图的相关研究工作进行介绍、然后从ICTCLAS分词系统 、TextRank算法 、用户标签生成及标签云图生成四个方面讨论研究内容。最后采集科学网博客6万多篇博文,设计一个在线标签推荐及标签云生成系统。总体思路如图1.2所表示:
图1.2 本文的研究思路
1.3.2本文的组织结构
本文分为如下5个章节。
第一章为绪论,主要分析本文的研究背景,解释社会标签系统及中文博客标签及标签云图,并指明本文的研究意义,同时简单描述了本文工作。
第二章为
文献综述
,主要总结了关键词自动抽取技术,从有监督和无监督两方面介绍了各种关键词抽取方法。从标签自动抽取,标签推荐两方面阐述了标签自动抽取技术。最后分析了标签云图的表现形式和表现方法。
第三章为主要研究内容。首先描述了中国科学院ICTCLAS分词系统原理,再次,讨论了TEXTRANK关键词抽取算法和用户具体的标签生成方法,最后描述了标签云图的生成和展现。
共7页:
上一页
1
2
3
4
5
6
7
下一页
上一篇:
中国学术界和华人影视界X度空间理论初探
下一篇:
ASP.net师生交流平台的开发+文献综述
基于android的环境信息管理系统设计
java+mysql班级评优系统的设计实现
ASP.NET飞翔租贷汽车公司信...
多频激励下典型非线性系统的振动特性研究
java+mysql文星酒店客房管理系统设计
jsp+mysql网上化肥店系统的设计与开发
java的B2C型电子商务网站管理系统的设计
上海居民的社会参与研究
AES算法GPU协处理下分组加...
基于Joomla平台的计算机学院网站设计与开发
STC89C52单片机NRF24L01的无线病房呼叫系统设计
酵母菌发酵生产天然香料...
浅论职工思想政治工作茬...
浅谈高校行政管理人员的...
压疮高危人群的标准化中...
从政策角度谈黑龙江對俄...
提高教育质量,构建大學生...