毕业论文
计算机论文
经济论文
生物论文
数学论文
物理论文
机械论文
新闻传播论文
音乐舞蹈论文
法学论文
文学论文
材料科学
英语论文
日语论文
化学论文
自动化
管理论文
艺术论文
会计论文
土木工程
电子通信
食品科学
教学论文
医学论文
体育论文
论文下载
研究现状
任务书
开题报告
外文文献翻译
文献综述
范文
文本分类技术研究+文献综述(6)
d) 支持向量机SVM
支持向量机方法是建立在统计学习理论的VC 文理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力。
在进行文本分类的时候,我们可以让计算机这样来看待我们提供给它的训练样本,每一个样本由一个向量和一个标记组成。如下:
就是文本向量(文数很高), 就是分类标记。我们可以定义一个样本点到某个超平面的间隔:
图2.2 支持向量机模型图示
SVM的基本思想可用上图的两文情况说明:实心点和空心点代表两类样本,H为分类线,HI、H2分别为过各类中离分类线最近的样本且平行于分类线的直线,它们之间的距离叫做分类间隔。所谓最优分类线就是要求分类线不但能将两类正确分开(训练错误率为0),而且使分类间隔最大,原理示意图如图2.2。把w和b进行一下归一化,即用w/||w||和b/||w||分别代替原来的w和b,那么间隔就可以写成:
(2.21)
yi[(w•xi)+b]≥1 (i=1,2,…,l)
因此我们的两类分类问题也被我们转化成了它的
数学
形式,一个带约束的最小值的问题:
Subject to (2.22)
满足以上公式且 最小的分类面就叫做最优分类面,H1和H2上的训练样本点就称作支持向量。
基本的SVM是针对两类分类问题的,为了实现对多个类别的识别,需要对SVM进行扩展。常用的SVM多类分类方法有One-VS-Rest、One-VS-One、ECOC(Error—Correcting Output Coding)、DAGSVM和二叉树等方法[7]。
2.3.2 人工神经网络
人工神经网络是对人类大脑的一种模拟。它由一组处理单元和它们之间的联接组成:处理单元包括输入单元,隐藏单元和输出单元,它们具有局部内存,并可以完成局部操作,可以接受多个输入信号,产生一个输出信号,这个信号可以传播到多个联接上:联接能够以一定的权值传送信号,这些权值在神经网络的训练过程中可以动态调整;各处理单元可以并行运行。它适于学习复杂的非线性映射,主要应用于语音、视觉、知识处理、辅助决策等方面。根据网络结构和学习算法的不同,人工神经网络分为多层感知器、自组织映射和Hopfieldl网络等[8]。
2.3.3 决策树分类法
决策树学习是一种逼近离散值目标函数的方法,在这种方法中学习到的函数被表示为一颗决策树。决策树通过把实例从根节点排列到某个子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点指定了对实例的某个属性的测试,并且该结点的每个后继分支对应于该属性的一个可能值。分类实例的方法是从这棵树的根节点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝上下移动,这个过程在以新结点为根的子树上重复。决策树算法有ID3、CART、CHAID、ASSISTANT 算法,他们的区别在于构造决策树和树枝剪枝的算法细节不同。决策树对噪声数据具有很好的健壮性,最大缺点是不适应大规模的数据集[3]。
2.4 性能评估
随着信息技术和Internet 的发展,算法对数据的处理能力越来越需要大量化和精确化,文本分类算法标准从三个方面评价:有效性、计算复杂性,可理解性。有效性衡量一个分类器准确分类的能力;计算复杂性衡量算法的时间复杂度和空间复杂度;可理解性是衡量该算法是不是很好被理解,人们更易接受很好理解的算法。得宜于硬件的高速发展,我们不再缺少快速的机器和海量内存,我们在评价文本分类算法时更倾向于它的有效性,有效性主要有3 个指标:查全率(Recall)、查准率(Precision)、F-测量(F-Measure)。
共8页:
上一页
1
2
3
4
5
6
7
8
下一页
上一篇:
基于最速下降法的FIR滤波器设计方法研究
下一篇:
MATLAB高速动车组牵引变流器的分析与仿真
基于TCP/IP技术的转向架振动测试系统设计
基于涡旋电磁波的新型雷达成像技术研究
波形发生技术的比较研究...
相控阵雷达天线自适应置零技术的研究
基于蓝牙和语音识别技术...
基于VR技术的通信虚拟实验室研究+源程序
数字图像水印技术的研究
高效课堂教师问卷调查表
提高小學语文課堂朗读教...
大规模MIMO系统的发展研究现状
小型通用机器人控制系统设计任务书
《水浒传》中血腥暴力研...
遥感土地用变化监测国内外研究现状
浅析施工企业保理融资成...
PCI+PID算法直流力矩电机速...
MNL模型历史城区居民活动...
从企业eHR建设谈管理信息...