毕业论文
计算机论文
经济论文
生物论文
数学论文
物理论文
机械论文
新闻传播论文
音乐舞蹈论文
法学论文
文学论文
材料科学
英语论文
日语论文
化学论文
自动化
管理论文
艺术论文
会计论文
土木工程
电子通信
食品科学
教学论文
医学论文
体育论文
论文下载
研究现状
任务书
开题报告
外文文献翻译
文献综述
范文
文本分类技术研究+文献综述(3)
T:D C. (2.1)
这里,T把一个文档实例映射为某一个类。对D中的文档d,T(d)是已知的。通过有指导地对训练文档集的学习,可以找到一个近似于T的模型:H
H:D C. (2.2)
对于一个新文档 ,H 表示对 的分类结果。一个分类系统的建立或者说分类学习的目的就是寻找一个和T最相近似的H。即给定一个评估函数f,学习的目标应使T和H满足:
(2.3)
2.1 文本分类系统
图 2.1 文本分类系统结构
文本分类过程是一个相对复杂的过程。并且随着分类算法的不同其结构也有相应的改变。文本分类一般包括文本的模型建立、文本的特征表示、特征选取、分类器的选择、数据的训练、分类结果的评价与反馈等过程,流程图如图2.1。
2.2 文本预处理
文本分类算法处理的数据对象是文本。文本作为人类语言的一种表现形式,它不具有严格的逻辑结构,由人类的习惯用语即成语言。而正是这种非结构性,使得我们必须对文本进行预处理,把它转化成
计算机
可以识别的,且具有一定结构的数据形式。文本的预处理包括:文本的表示、特征提取、特征项的权值计算,下面分别进行介绍。
2.2.1 文本表示
由于分本分类算法只能直接处理结构化的数据,文本作为非结构化数据需要对其进行结构化处理,把无结构化的文本转化为结构化描述。文本表示是指用文本的特征信息集合来代表原来的文本。文本的特征是文本的元数据,分为描述性特征(例如文本的名称,大小,时间,类型等)和语义性特征(如文本的标题,内容等)。现有文本分类技术的前提假设是特征和文档类别概念密切相关。在这一假设下,通常有两种文档表示模型,即布尔模型和向量空间模型。
向量空间模型中,一篇文档表示为特征空间中的一个向量,这个向量也称为文档向量。文档向量中每一文对应于文档中的一个特征,它的权值为该向量文对应的特征在文档库中的权值,一般采用TFIDF方法计算。两篇文档的相似度,则通过计算对应文档向量的夹角余弦得到。
布尔模型可以看作是向量模型的一种特例,根据特征是否在文档中出现,特征的权值只能取1或O。许多时候,使用二值特征的分类效果结果并不比考虑特征频率的差。
决策树方法、关联规则方法和Boosting方法就是基于布尔模型;而KNN法、SVM方法、LLSF是基于向量模型。Byaes推理网分类方法,则考虑了文档中词之间的依赖关系[4]。
2.2.2 文本特征选择
根据John Pieree的理论,用来表示文本的特征理论上应具有如下特点:
a) 出现频率适中
b) 数量上尽量少
c) 噪音少
d) 冗余少
e) 与其所属类别语义相关
f) 含义尽量明确
就文本来说,最方便采用的特征就是词或短语。词或短语是组成文本的而文本所具有的词和短语相对多,对于几篇文档来时数量还可以接受,但是我们所处理的是大规模的文本,其词和短语的数量就可想而知是多么的大了。如果都作为特征项来处理,无疑会浪费大量的时间和空间,因此必须对这些词语进行筛选,这样做的目的只要有以下两个方面:一是为了提高程序的运行效率;二是所有的词对文档分类的作用是不同的,对于在所有类中出现频率都较大的词和短语对分类贡献就较少,而那些只在某类中出现频率较大的词和短语对分类的贡献就较大,因此我们需要去除那些对分类贡献较小而保留贡献较大的词或短语[4]。
共8页:
上一页
1
2
3
4
5
6
7
8
下一页
上一篇:
基于最速下降法的FIR滤波器设计方法研究
下一篇:
MATLAB高速动车组牵引变流器的分析与仿真
基于TCP/IP技术的转向架振动测试系统设计
基于涡旋电磁波的新型雷达成像技术研究
波形发生技术的比较研究...
相控阵雷达天线自适应置零技术的研究
基于蓝牙和语音识别技术...
基于VR技术的通信虚拟实验室研究+源程序
数字图像水印技术的研究
高效课堂教师问卷调查表
提高小學语文課堂朗读教...
大规模MIMO系统的发展研究现状
小型通用机器人控制系统设计任务书
《水浒传》中血腥暴力研...
遥感土地用变化监测国内外研究现状
浅析施工企业保理融资成...
PCI+PID算法直流力矩电机速...
MNL模型历史城区居民活动...
从企业eHR建设谈管理信息...