毕业论文
计算机论文
经济论文
生物论文
数学论文
物理论文
机械论文
新闻传播论文
音乐舞蹈论文
法学论文
文学论文
材料科学
英语论文
日语论文
化学论文
自动化
管理论文
艺术论文
会计论文
土木工程
电子通信
食品科学
教学论文
医学论文
体育论文
论文下载
研究现状
任务书
开题报告
外文文献翻译
文献综述
范文
文本分类技术研究+文献综述(5)
根据香农的信息学理论,如果特征项在所有的文档中出现的频率越高,那么它所包含的信息熵就越少;而如果特征项在较少的文档中出现,且其出现频率较高那么它的信息熵就越高。给每个特征项赋上权值时总是希望文本中越重要的词赋上较大的权值,以前是由专家或者用户根据自身的经验或者所掌握的领域知识人为地赋予权值,很明显这种方法效率太低,且具有一定的随意性,很难适应大规模的文本处理。发展到今天,加权方法发生了巨大的改变,比如利用统计的方法,也就是利用文本的统计信息来计算特征项的权值。目前较主流加权方法有TFIDF 方法。在实验中被广泛采用的权值计算公式如下:
(2.14)
N 为训练文本数, 表示训练文本集合中出现词条 的文本数, 表示特征 出现的频率。它是一种文档词集的表示法,所有的词从文档中取出来而不考虑词间的次序和文本的结构。TFIDF 的另一种加权法其应用也相当广泛,可加权多种文档词集:
(2.15)
为特征项t在文本 中权值, 为特征项t在文档 中的频率,N 为训练文本的总数, 为训练文本集中出现t 的总数。
2.3 几种分类方法
文本分类算法实质上就是建立文本特征到类别的映射关系,不同的算法在训练和测试阶段都有着显著的区别。从方法学的角度划分,文本分类的方法大致上有三种:基于统计的分类方法,人工神经网络和基于规则的方法。
2.3.1 基于统计的算法
a) 朴素贝叶斯方法
这种方法根据一个概率确定文档d的分类情况: ,即对于文档d来说类别 的条件概率。这个概率越高,d越有可能属于 文档类。
根据贝叶斯公式: (2.16)
因此: 其中, (2.17)
对于一定的训练文档集,假设它能够真实反映文本类别的分布,则很容易获得一个类别的概率: ,问题集中于 的计算。
如果我们假设文本的特征相互独立, ,其中 是文档d中的特征词,这种模型称Binary Independence Model。 还有一些不同的计算模型,如最大似然模型(Maximum Likelihood Model)、多项式模型(Multinomial Model)、泊松模型(Poison Model)等[5]。
b) KNN(K nearest neighbors)方法
KNN的训练过程保存每一个训练文档向量和它所属的类别,分类时,在向量空间中找到待分类文档向量的K个最近邻。在此基础上,给每一个文档类打分,分值为K个训练文档中属于该类的文档和测试文档之间的相似度之和。然后按照分值对文档类排序,若最高分值大于一定的阈值 ,则可以确定它为待分类文档所属的类别。
文档d属于一个类别 的分值为:
相似度有两种算法:一时求向量几何距离,二是求向量夹角的余弦值[6]。
c) 类中心向量法(Rocchio方法)
这种方法用训练文档向量求出每一个类别的中心向量,来代表整个类别。在分类阶段,对于某一给定的文档d,计算文档向量和每个类别中心向量的相似度,然后按相似度进行从大到小排序。相似度最大值所对应的类别,就是文档的所属类别。如果希望文档可以属于多个类别,可以设定一个阙值,文档属于相似度超过阈值的所有类。中心向量的计算公式如下,其中 是类f的中心向量的莉文。初始时,中心向量的每一文都为0,然后,对训练文本进行批处理,每次都对各个中心向量产生影响。
共8页:
上一页
1
2
3
4
5
6
7
8
下一页
上一篇:
基于最速下降法的FIR滤波器设计方法研究
下一篇:
MATLAB高速动车组牵引变流器的分析与仿真
基于TCP/IP技术的转向架振动测试系统设计
基于涡旋电磁波的新型雷达成像技术研究
波形发生技术的比较研究...
相控阵雷达天线自适应置零技术的研究
基于蓝牙和语音识别技术...
基于VR技术的通信虚拟实验室研究+源程序
数字图像水印技术的研究
高效课堂教师问卷调查表
提高小學语文課堂朗读教...
大规模MIMO系统的发展研究现状
小型通用机器人控制系统设计任务书
《水浒传》中血腥暴力研...
遥感土地用变化监测国内外研究现状
浅析施工企业保理融资成...
PCI+PID算法直流力矩电机速...
MNL模型历史城区居民活动...
从企业eHR建设谈管理信息...