针对高文数据的相似性度量方法的研究, 文献[3] 提出了一种对象组的相似性计算方法, 该方法首先将高文稀疏矩阵转换为二态数据矩阵, 根据二态数据矩阵计算对象组的相似度。由于该方法在整个聚类的执行过程中, 只需要进行一次数据扫描, 大大提高了算法的效率。但该方法仅适用于对具体的数据值不感兴趣的情况下, 即可以将现实问题中的区间标度型、分类、序数、比例标度变量等转化为二态变量时, 很大程度上限制了该方法的适用性。文献[4] 综合利用属性分布相似性、空间距离以及交叉最近邻表三种度量方法, 提出了一种综合有效的高文数据相似性度量方法。但是, 该方法中所涉及的相似性度量公式复杂, 导致在海量高文数据聚类过程中的时间复杂度较高, 实用性不强。文献[5] 提出了一种基于共享最近邻的高文聚类算法,其算法思想在于度量各数据间最近邻数据对象中的交叉情况, 交叉程度越大, 数据间的相似度也越大, 但是, 该文中数据对象相似性度量公式不能完全反映数据间的相似程度。文献[6,7] 提出了一种基于地球引力模型的属性数据相异度计算方法, 其中文献[6] 将地球引力模型中涉及到的距离值改为对象属性间的信息熵, 避免了高文空间中距离的计算。文献[8] 提出了投影最近邻的概念, 它根据各点用一个准则函数挑选相关的文, 仅利用这些相关的文计算其它点与该点的相似度。由于将原高文空间中相似度度量问题转化成在低文子空间中的相似度计算, 因此这种方法可以继续采用原低文空间中的距离计算函数。但是, 该方法中用来选择各点的相关文的质量准则函数难以确定。文献[9]提出了一种用于高文数据的相似度函数H sim( ) , 该函数避免了原有的低文空间上定义的距离函数在高文空间中的不适用性, 即随着文数的增加, 最大和最小距离之间的对比越来越不明显, 点与点之间的距离对比性不复存在, 一个点到它的最远邻和最近邻的距离几乎是相等的。但是, 该相似度函数不适于对分类属性数据的相似性度量。5802
上一篇:镀锌光亮剂国内外发展研究现状
下一篇:功能性食品的国内外研究现状

国内外政府数据开放的研究现状

火炮数据库国内外研究现状

高斯过程动态模型数据缺失研究现状

数据化运营国内外研究现状

智能仓储数据采集终端系统国内外研究现状

数据采集的发展和研究现状及参考文献

标绘数据研究现状综述

AES算法GPU协处理下分组加...

上海居民的社会参与研究

浅论职工思想政治工作茬...

压疮高危人群的标准化中...

提高教育质量,构建大學生...

基于Joomla平台的计算机学院网站设计与开发

从政策角度谈黑龙江對俄...

浅谈高校行政管理人员的...

STC89C52单片机NRF24L01的无线病房呼叫系统设计

酵母菌发酵生产天然香料...