该方法简单易行且效率高,但其无法识别不含有情感词但又明显情感倾向的文本,且无法识别词汇在不同语境下不同的情感倾向,这使得该方法具有一定的局限性。

2。2  基于机器学习的情感分类方法

本节着重介绍有监督学习的方法。

本节按照机器学习方法的一般步骤,依次按小节给出相关的概念,步骤如图2。1所示。

基于机器学习方式的文本情感分析的一般步骤框图

图2。1  基于机器学习方式的文本情感分析的一般步骤

2。2。1  文本预处理

文本预处理的过程主要涉及格式规范化,编码统一,去除停用词,过滤非法字符等。格式规范化与编码统一是为了将文本整理为规范的文本和编码格式,方便下一步特征提取。停用词是指虽然没有意义,但出现的非常频繁的词,例如,“的”,“啊”等[ ]。去除停用词可以一定程度上防止形成噪声以提高算法效率与准确率。过滤非法字符主要针对与文本内容无关的一些标记。如果分类文本为中文,还要对文本进行分词,这是因为中文与英文不同,不存在天然的空格来对词语进行分割,我们需要对句子进行分割来找出其中的词语,进而进行下一步的特征提取。词作为中文文本分类的一个特征,分词的效果将直接影响到分类的效果,所以分词是至关重要的一步。来*自-优=尔,论:文+网www.chuibin.com

2。2。2  文本表示

一段文本原始的表示形式是一个由相应的文字和以及标点符号构造成的字符串,计算机不能直接处理这种形式的文本。为了能够有效处理真实文本,需要寻找一种理想的形式化表示方式,该方法要能够尽可能不失真的反应文档的内容且对不同文档有区分的能力。

20世纪60年代末期,向量空间模型(VSM)由G。Salton等人提出,最早用于信息检索系统中,目前是自然语言处理的常用模型。该模型的思想是将不同文本转化为向量空间内不同的点,通过度量不同点之间的距离可以得到不同文本之间的关系[ ]

上一篇:CTR基于协同深度学习的推荐系统设计
下一篇:Hadoop+FINDR高光谱图像混合像元分解的分布式并行优化方法

基于android的环境信息管理系统设计

基于激光超声检测金属材...

基于MOODLE平台的在线交互式学习设计

基于离散事件系统Petri网模型的可达图研究

基于高斯过程动态模型的时序数据恢复方法

基于深度学习的目标识别算法研究

MATLAB基于流形学习与神经网络的预测建模

从政策角度谈黑龙江對俄...

浅论职工思想政治工作茬...

STC89C52单片机NRF24L01的无线病房呼叫系统设计

提高教育质量,构建大學生...

压疮高危人群的标准化中...

基于Joomla平台的计算机学院网站设计与开发

酵母菌发酵生产天然香料...

AES算法GPU协处理下分组加...

上海居民的社会参与研究

浅谈高校行政管理人员的...