对于如何选择文本特征的问题,存在多种方法。大体上可以分成两类:基于信息论和统计分析的方法,以及基于字典的方法。基于字典的方法准确性较高,但字典往往是领域相关的,而且其建立过程需要大量的时间精力,因此大多数现有的特征选择算法都是基于信息论和统计分析的。特征选择的具体步骤如下:
a) 从训练文档库中提取得所有特征项,构成文档特征集合F;
b) 对集合F中的每一项用下列某一种方法进行打分,然后按分值由高到低进行排序;
c) 假设需要选取N个文档分类属性,则从F中选取分值最高的N个项,构成最终的分类属性集Fs。Fs将用于文档分类的训练与测试。
特征选择方法有如下几种:
a) 信息增量(Information Gain)
信息增量表示文档中包含某一特征值时文档类的平均信息量。它定义为某一特征在文档中出现前后的信息熵之差。假定c为文档类变量,C为文档类的集合,d为文档,f为特征(以下各节同此)。对于特征f,其信息增量记为IG(f),计算公式如下:
       (2.4)
其中, 表示一篇文档属于类别C的概率, 表示特征项f在一篇文档内出现的概率, 表示特征项f不在一篇文档内出现的概率, 表示特征项f在属于类别C的文档内出现的概率, 表示特征项f不在属于类别C的文档内出现的概率。 值大则被提取的可能性大,即特征项按照 值排序。
b) 互信息(Mutual Information)
互信息是用于表征两个变量间相关性的。对于文档类别c和特征f,其互信息为
MI(c,f),计算公式如下:
                               (2.5)
显然,当f独立于c时,MI(c,f)为0。在应用时一般取平均值:
                              (2.6)
 表示在训练集中即包含特征项f又属于类别c的文本出现的概率, 表示训练集中属于类别次c的文本的概率, 表示包含特征项f的文本在训练集中出现的概率。
c)  统计
 统计也是用于表征两个变量问的相关性,但它比互信息更强,因为它同时考虑了特征存在与不存在时的情况。对于文档类别c和特征f,其 统计的计算公式如下:
                 (2.7)
当c与f相互独立时, 为O。和互信息类似,取平均值:
                                    (2.8)
d) 交叉熵(Cross Entropy)
交叉熵和信息增量相似,不同之处在于信息增量中同时考虑到了特征在文本中发生与不发生时的两种情况,而交叉熵只考虑特征在文本中发生一种情况。对于特征f,其交叉熵为 ,计算公式如下:
                       (2.9)
在只考虑单个类的时候,则有:
                        (2.10)
e) Fisher判别式
Fisher判别式是一种基于统计的方法,表示某一特征在类间分布和类内分布之比:
上面,n(d,f)和n(d)分别表示特征f在文档d中的频数和文档d中总的特征频数[4]。
2.2.3  文本加权方法
上一篇:基于最速下降法的FIR滤波器设计方法研究
下一篇:MATLAB高速动车组牵引变流器的分析与仿真

基于TCP/IP技术的转向架振动测试系统设计

基于涡旋电磁波的新型雷达成像技术研究

波形发生技术的比较研究...

相控阵雷达天线自适应置零技术的研究

基于蓝牙和语音识别技术...

基于VR技术的通信虚拟实验室研究+源程序

数字图像水印技术的研究

高效课堂教师问卷调查表

提高小學语文課堂朗读教...

大规模MIMO系统的发展研究现状

小型通用机器人控制系统设计任务书

《水浒传》中血腥暴力研...

遥感土地用变化监测国内外研究现状

浅析施工企业保理融资成...

PCI+PID算法直流力矩电机速...

MNL模型历史城区居民活动...

从企业eHR建设谈管理信息...