1.3  国内外研究现状
2  相关模型
本文在充分考虑到网络语言的特点的同时把研究的焦点放在了计算相关度之前的工作上,主体思路就是将LDA模型与向量空间模型相结合,利用LDA模型来定义特征项,从而改善向量空间模型单纯依靠相似度计算来判断相关度的局限性,也就是说本文利用词汇比对来判断相关性,但是把研究的重点放在如何得到比对的有效词库。下面就简单介绍一下本文主要涉及的两个模型。
2.1  向量空间模型
向量空间模型 (Vector Space Model,VSM) 具有简便、高效等优势,自被发现以来就被广泛地应用于信息过滤、采集以及索引当中,是非常实用的计算相似度的代数模型。VSM的原理很容易理解,用向量空间中的向量运算来对文本信息进行处理转化,再以向量空间上的相似度来衡量文本的相似度。用空间向量表示文档,就可以通过计算向量之间余弦距离的来计算文本间的相关度。
文件(语料)被视为索引词(关键词)形成的多次元向量空间, 索引词的集合通常为文件中至少出现过一次的词组。搜寻时,输入的检索词也被转换成类似于文件的向量,这个模型假设,文件和搜寻词的相关程度,可以经由比较每个文件(向量)和检索词(向量)的夹角偏差程度而得知。实际上,计算夹角向量之间的余弦比直接计算夹角容易:余弦为零表示检索词向量垂直于文件向量,即没有符合,也就是说该文件不含此检索词。通过上述的向量空间模型,文本数据就转换成了计算机可以处理的结构化数据,两个文档之间的相似性问题转变成了两个向量之间的相似性问题。
在向量空间模型中,文本用D(Document)表示各种机器可读的记录;特征项(Term,用T表示)是指出现在文档D中并且能够代表该文档内容的基本语言单位,主要是由词或短语构成。则文本可以用特征项集表示为 ,其中 是特征项 。
例如,一篇文档中有a、b、c、d四个特征项,那这篇文档就可以用D(a,b,c,d)表示。针对含有n个特征项的文本,通常会给每个特征项赋予一定的权重来表示其重要程度,即 D=D(T1,W1;T2,W2;…,Tn,Wn),简记为 D=D(W1,W2,…,Wn),就形成了我们需要的文本D的向量表示形式,其中W_k 是T_k 的权重(1≤k≤N)。在上面那个例子中,假设(a、b、c、d)的权重分别为(30,20,20,10),则该文本的向量应该表示为D(30,20,20,10)。在VSM模型中,两个文本D_1 和D_2之间的内容相关度 Sim(D1,D2)常用向量之间夹角的余弦值来表示,其公式为:
 、 分别表示文本 和 中第 个特征项的权值 。而在本文中要依靠LDA的建模结果来确定这个权值。
上一篇:二重VaR的基本特性及应用研究
下一篇:线性规划的单纯形法及其应用+文献综述

中学数学教学中的模型思想与应用

Logistic回归分析模型的应用及R软件实现

lasso回归及运用

具有接种疫苗的SIS传染病模型的稳定性

无锡市生态足迹模型计算...

淮安市PM2.5的统计模型研究

微分方程在网络系统研究中的应用

基于Joomla平台的计算机学院网站设计与开发

压疮高危人群的标准化中...

STC89C52单片机NRF24L01的无线病房呼叫系统设计

从政策角度谈黑龙江對俄...

提高教育质量,构建大學生...

AES算法GPU协处理下分组加...

上海居民的社会参与研究

浅论职工思想政治工作茬...

浅谈高校行政管理人员的...

酵母菌发酵生产天然香料...