1)    建立数据集
得到收集文本数据后,中文文本相对于英文文本有很大的区别,因此在进行分类前,首先应该针对中文文本进行分词、去停用词等。并且将数据人工分为测试集和训练集。
2)    建立文本表示模型
文本分类基于文本的特征所趋向的领域。文本特征是指能够突出地代表待分类文本的主要内容,为了降低文本分类的处理数据复杂度,有必要提取出文本内容的特征项进行代表文本内容,从而能够提高文本分类处理方法的性能和精度。
通过数学模型实现机器对文本的特征提取。不同的数学模型,所提取特征的效果不同。现阶段文本表示模型主要有两种:空间向量模型和布尔模型
上一篇:网络视频90后大学生受众收视调查与分析
下一篇:用电影剖析都市人杨德昌电影研究

我国互联网+背景下网络直...

网络直播的现状及发展趋势

网络自制综艺节目的传播...

旅游危机事件网络舆情管控分析

网络广告的发展现状研究以腾讯为例

十三集网络剧《只为更好遇见你》

自媒体时代网络播客内容创业的路径研究

上海居民的社会参与研究

提高教育质量,构建大學生...

酵母菌发酵生产天然香料...

压疮高危人群的标准化中...

从政策角度谈黑龙江對俄...

AES算法GPU协处理下分组加...

基于Joomla平台的计算机学院网站设计与开发

STC89C52单片机NRF24L01的无线病房呼叫系统设计

浅谈高校行政管理人员的...

浅论职工思想政治工作茬...