毕业论文
计算机论文
经济论文
生物论文
数学论文
物理论文
机械论文
新闻传播论文
音乐舞蹈论文
法学论文
文学论文
材料科学
英语论文
日语论文
化学论文
自动化
管理论文
艺术论文
会计论文
土木工程
电子通信
食品科学
教学论文
医学论文
体育论文
论文下载
研究现状
任务书
开题报告
外文文献翻译
文献综述
范文
文本分类文献综述和参考文献
文本分类(Text Classification,TC)也就是将文本按照一定的属性和内容归结为同类别或者多个类别的过程[2]。国外对于文本分类的
研究
起步较早,大致额可以划分为以下几个阶段。首先,于20世纪50年代末,学者Kuhn在文本分类这一领域开创了新的起点,他将词频统计这一重要思想引进到文本分类中来,开始了全新的文本分类思想[1]。这也是国外第一次开始对文本分类进行相关研究。20世界60年代,学者Kuhn和Maron基于模式识别的思想将概率标引模型引进到信息分类领域[2]。1963年Borko等人提出了利用因子分析法进行
文献
的自动分类[3]。1975年,Salton在对文本进行描述时提出了一种向量空间模型。30220
其次,于1980年以后,文本分类主要是基于知识工程(Knowledge Engineering, KE)术进行处理。即根据专家通过知识积累人工编写规则,并且通过结合规则形成分类
系统
。主要以路透社(Reuters)使用的卡内基集团所开发的Construe系统。该系统为路透社每天接收上万篇稿件,实现了系统自动进行分类处理。
这一阶段的发展虽然在成效上有着巨大的改善,但是同样存在着巨大的局限性。一方面:大幅度依赖于专业人员的技术,其系统的优良性以及事物的定义,也会因人而异。另一方面:其领域具有局限性,当新的领域产生,其规则必须重新定义。并且,对于研究领域所描述的信息,也会使得系统无法识别导致放弃归类。
论文网
最后,从1990年至今,由于
网络
的迅速发展,网络文本数据量急剧增多。传统的知识工程分类法已经跟不上现代信息量剧增的步伐,因此机器学习(Machine Learning, ML)[4]成为这个时代的主要分类方法,并逐步取代传统人工智能的知识工程分类法。这个阶段,是信息分类研究高速发展时期[5]。
这一时期,越来越多的学者提出了各种各样的文本分类处理方法。在特征选择方面,Gupta等人提出了粗糙集方法[6]。在文本分类规则方面,Hirsch团队根据遗传算法提出了一种新的文本分类规则[7]。在中
英文
混合的文本进行分类处理时,基于两个有限状态转换算法和贝叶斯算法,Civera等人提出了一种新的中英文文本分类处理算法[8]。在对专利文本进行分类处理方面,Trappey等人将神经网络分类方法进行改进从而提出了一种新的专利文本分类算法[9]。
在对网页文本进行分类处理方面,Otsubo等人提出了一种新的网页文本分类处理方法,能够对Web网页文本内容进行提取从而进行分类处理[10]。对于使用分类器进行文本分类方面,Bell等人通过组合不同的分类器从而提出了一种复合的分类器对文本进行分类处理[11]。对文本进行分类并且分析方面,Almonayyes等人基于朴素贝叶斯算法,将该算法与实际推理相结合从而提出了一种新的文本分析方法[12];通过改进贝叶斯算法,Uejima等人引入了语义模糊性解析算法[13]。
2006年以来,对于文本分类算法性能的提高成为了这一时期主要的研究方向。在这方面,Choi和Park首先提出了一种新的文本分类方法,这一方法主要体现出在提高文本分类处理算法性能方面的提升[14];同年,基于传统的遗传算法,Yamada等人在经典的KNN文本分类算法基础之上进行了改进[15]。在对Web网页进行文本分类处理方面,为了滤除有害的网页文本内容,Youngsoo等人提出了一种新的文本分类器,同时给出了这种分类器的标准[16]。在对文本分类处理算法效率方面,Kapalavayi团队开辟了一个新的领域,提出了一种全新的基于层次选择的特征选择方法,该方法能够择优选择文本内容,从而提升文本分类的处理效率[17]。对于文本类别不均衡的文本内容,Arunasalam和Chawla等人提出了一种关联分类处理[18]。对于Web网页的评论内容进行分类处理方面,Jung等人展开了一项新的研究方法[19]。对于较自动处理文本分类处理算法方面,Hinton和Salakhutdinov提出了一种全新的处理方法,该方法通过训练中间层的数据集,进而将多文数据进行转换到低文空间,降低了算法处理复杂度,为文本分类处理算法实现全
自动化
奠定了夯实的基础[20]。
共3页:
上一页
1
2
3
下一页
上一篇:
政府宏观经济政策效果传导文献综述和参考文献
下一篇:
纪录片与国家形象的文献综述
亚临界水的高效液相色谱法文献综述
全域旅游和县域旅游文献综述
小企业会计准则文献综述和参考文献
数据挖掘项目型企业CRM文献综述
VAR模型研究货币政策文献综述和参考文献
大学生人文知识素养文献综述
滚动轴承和模糊聚类算法文献综述和参考文献
浅谈高校行政管理人员的...
压疮高危人群的标准化中...
基于Joomla平台的计算机学院网站设计与开发
从政策角度谈黑龙江對俄...
上海居民的社会参与研究
酵母菌发酵生产天然香料...
提高教育质量,构建大學生...
浅论职工思想政治工作茬...
STC89C52单片机NRF24L01的无线病房呼叫系统设计
AES算法GPU协处理下分组加...