网络舆情分类研究+文献综述(3)

1) 建立数据集
得到收集文本数据后，中文文本相对于英文文本有很大的区别，因此在进行分类前，首先应该针对中文文本进行分词、去停用词等。并且将数据人工分为测试集和训练集。
2) 建立文本表示模型
文本分类基于文本的特征所趋向的领域。文本特征是指能够突出地代表待分类文本的主要内容，为了降低文本分类的处理数据复杂度，有必要提取出文本内容的特征项进行代表文本内容，从而能够提高文本分类处理方法的性能和精度。
通过数学模型实现机器对文本的特征提取。不同的数学模型，所提取特征的效果不同。现阶段文本表示模型主要有两种：空间向量模型和布尔模型