毕业论文
计算机论文
经济论文
生物论文
数学论文
物理论文
机械论文
新闻传播论文
音乐舞蹈论文
法学论文
文学论文
材料科学
英语论文
日语论文
化学论文
自动化
管理论文
艺术论文
会计论文
土木工程
电子通信
食品科学
教学论文
医学论文
体育论文
论文下载
研究现状
任务书
开题报告
外文文献翻译
文献综述
范文
文本分类技术研究+文献综述(7)
2.4.1 查全率与查准率
查准率(Precision)是指所有被分类器分为类别C 的文本中正确文本的比率。查全率(Recall)是指所有属于类别C 的文本和被分类器分到该类别的比率。他们的公式如下[8]:
(2.23)
(2.24)
TP 指被分类器正确分类到类别C 的文本数,FN 是实际属于类别C 但分类器没有将其正确分到类别C 的文本数;FP 指的是实际不属于类C 却被分类器错误的分到类别C 的文本数。
2.4.2 F-测量
查准率和查全率从两个不同的方面反映了分类器的分类能力,有时如果单纯提高查准率将会导致查全率的降低,反之亦然,如果有一个指标综合考虑这两种指标,它将能很好的评价一个分类器的分类能力,这个评价指标就是F-测量,其计算公式如下:
(2.25)
其中 是一个调节因子,用于以不同权重考察查全率和查准率在F-测量中的作用,当 等于1 时,表示同等对待查准率和查全率,此时的F-测量指标被称为1 F 指标,定义如下:
(2.26)
2.4.3 微平均和宏平均
查全率、查准率和F-测量都是针对单个类别进行的度量,当需要对整个分类性能综合考虑时,我们需要将所有的类别的结果综合起来得到结果。基于这种考虑有两种评价指标:微平均(Micro-averaging)和宏平均(Macro-averaging)。微平均计算所有类别中正确分类和错误分类的文本总数,再求查全率R 和查准率P。宏平均则考虑所有类别中微平均和宏平均的算术平均值。目前还没有关于哪种评价指标好坏的定论。当数据集间的差异较大时,两者值的差异也较大。当某类别具有较低通用性的时候,宏平均更能反映分类能力[3]。
3 文本分类的算法实现
3.1 中文文本预处理
论文使用的语料库是中科院提供的标准语料库,选取了其中的10 类作为分类目标,其分别为:交通类、体育类、军事类、医药类、政治类、教育类、环境类、
经济
类、
艺术
类和计算机类。每类选取了200篇共计2000 篇文档作为训练文档,然后选取了库中300篇文档作为测试,流程图如图3.1。
图3.1中文文本预处理过程
中文不同于
英语
及其他语种,它的书面表达方式是以汉字作为最小单位的,即是字的序列,词之间没有间隔标记。而在自然语言理解当中,词是语言中最小的能独立运用的单位,是自然语言处理系统中重要的知识载体与基本操作单位。在自动文本分类技术中,基于字频的分类方法在实际使用中较为少见,大多数分类方法都是基于词的,而一些基于自然语言理解的方法也必须首先对文本进行分词。而且,由于中文特有的书写形式、灵活多变的构词方式以及对句子采取不同的分词形式可能产生完全不同的含义,对中文文本的自动切分比较困难。论文采用了中科院的“ICTCLAS 汉语分词系统”来对2300 篇文档语料库进行文本的分词。其
软件
网址为:http://www.chuibin.com/。ICTCLAS主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典;支持繁体中文;支持gb2312、GBK、UTF8等多种编码格式。 ICTCLAS分词速度单机500KB/s,分词精度98.45%,API不超过100kb,各种词典数据压缩后不到3M,是世界上最好的汉语词法分析器之一[9]。
共8页:
上一页
1
2
3
4
5
6
7
8
下一页
上一篇:
基于最速下降法的FIR滤波器设计方法研究
下一篇:
MATLAB高速动车组牵引变流器的分析与仿真
认知无线电网络中基于双...
基于TCP/IP技术的转向架振动测试系统设计
基于涡旋电磁波的新型雷达成像技术研究
波形发生技术的比较研究...
相控阵雷达天线自适应置零技术的研究
基于蓝牙和语音识别技术...
基于VR技术的通信虚拟实验室研究+源程序
多元化刑事简易程序构建探讨【9365字】
浅谈新形势下妇产科护理...
拉力采集上位机软件开发任务书
《醉青春》导演作品阐述
国内外无刷直流电动机研究现状
高校网球场馆运营管理初探【1805字】
谷度酒庄消费者回访调查问卷表
辩护律师的作证义务和保...
中国古代秘书擅权的发展和恶变
浅谈传统人文精神茬大學...