毕业论文
计算机论文
经济论文
生物论文
数学论文
物理论文
机械论文
新闻传播论文
音乐舞蹈论文
法学论文
文学论文
材料科学
英语论文
日语论文
化学论文
自动化
管理论文
艺术论文
会计论文
土木工程
电子通信
食品科学
教学论文
医学论文
体育论文
论文下载
研究现状
任务书
开题报告
外文文献翻译
文献综述
范文
文本分类文献综述和参考文献(2)
2007年度,在文本表示模型方面,Taeho和Malrey提出了一种将文本用字符串向量进行表示,同时对于向量机文本分类方法进行改进,取得了很好的效果,使得该处理算法能够适用于该模型[21]。对于分类器的参数调整方面,以前的文章中从未提过,只是认为参数的选择只是起到次要的作用,经典的常用的Rocchio方法使用的文本分类器的参数千篇一律,因此,Koster和Beney等人结合该方法与Winnow方法进行改进,从而提出了改变分类器参数的思想[22]。对于文本类别分布不均衡的文本集,前期作者都不太关注,而Verhein和Chawla等人在前人结论的基础之上,通过改进关联分类方法从而提出了一种新的处理此种文本集的文本分类处理方法[23]。
同年,Hirasawa和Suzuki将词频比较方法进行累计处理提出了一种新的文本分类方法[24]。在对文本进行特征选择方面,Lee和Wong等人基于进化方法提出了一种新的特征选择处理方法。在对文本特征进行加权处理方面,Lebanon等人通过改进现有的文档词袋表示方法[25],提粗了一种新的特征词加权结构。对于文本分类算法导致的组合优化处理方面,Bosio和Righini等人提出了一种新的解决方法[26]。Joshi和Lam比较了不同的文本分类方法中基于向量机的分类方法,并提出了各自的优缺点。
于2008年度,对于文本分类处理算法的复杂度过高问题,Janik和Kochut等人提出了一种全新的文本分类处理方法[27],与传统的文本分类处理方法相比,该方法最大的优点在于不需要训练文本集。基于最小二乘法和多重线性向量机处理方法,结合这两种处理方法,Park提出了一种新的解决两类文本分类问题[28]。
2 国内研究概况
国内文本分类研究相对较国外起步比较晚,一方面是由于
计算机
于90年代才引进中国,相对国外,计算机引进较晚,掌握技术相对落后。另一方面,中文与英文差别较大,英文文本词与词之间是分开的,而中文是连贯起来的,所以在进行文本分类的时候,必须进行文本预处理。因此,增大了分类研究的难度。
南京农业大学的候汉清教授于1981年首先介绍了国外运用计算机技术对文本内容进行分类处理的概括。国内比较出名的中科院、清华大学、哈尔滨工业大学等重大科研机构院校等先后建立了专门处理中文文本分类的重点实验基地,专注于对中文文本进行分类处理研究,都取得了比较好的效果。
现阶段国内的文本分类研究取得了巨大的进展,并最先应用于中国的各大网站中, 例如百度等搜索引擎中。并且也得到了相关部门对信息分类研究的重视。国际中文计算机学会、中国中文信息学会、国内的计算机核心期刊和若干所著名高校计算机系的中文信息处理实验室等都对中文文本分类技术进行了深入的研究。
参考文献
[1] 汤玲. 基于HMM模型的语音识别系统研究[D]. 国防科学技术大学, 2005.
[2] 汪建华. 中文文本分类技术研究[n]. 吉林大学, 2007.
[3] 牛罡,罗爱宝,商琳. 半监督文本分类综述[J]. 计算机科学与探索,2011,04:313-323.
[4] 刘伍颖. 面向垃圾信息过滤的主动多域学习文本分类方法研究[D].国防科学技术大学, 2011.
[5] 郭永辉. 面向短文本分类的特征扩展方法[D].哈尔滨工业大学, 2013.
[6] 吴芬琳. 自适应加权KNN文本分类[D].华侨大学, 2014.
[7] 卫洁. MapReduce.框架下的贝叶斯文本分类学习研究[D].山西财经大学, 2012.
[8] 郑俊飞. 文本分类特征选择与分类算法的改进[D].西安
电子
科技大学, 2012.
共3页:
上一页
1
2
3
下一页
上一篇:
政府宏观经济政策效果传导文献综述和参考文献
下一篇:
纪录片与国家形象的文献综述
亚临界水的高效液相色谱法文献综述
全域旅游和县域旅游文献综述
小企业会计准则文献综述和参考文献
数据挖掘项目型企业CRM文献综述
VAR模型研究货币政策文献综述和参考文献
大学生人文知识素养文献综述
滚动轴承和模糊聚类算法文献综述和参考文献
浅谈高校行政管理人员的...
压疮高危人群的标准化中...
基于Joomla平台的计算机学院网站设计与开发
从政策角度谈黑龙江對俄...
上海居民的社会参与研究
酵母菌发酵生产天然香料...
提高教育质量,构建大學生...
浅论职工思想政治工作茬...
STC89C52单片机NRF24L01的无线病房呼叫系统设计
AES算法GPU协处理下分组加...