摘要进入 21 世纪,步入了高速信息时代,人们面对的信息量呈指数级成长,信息检索技术应运而生。存在着更大研究价值和广泛应用前景的文本检索技术已成为信息检索的重要分 支,文本检索领域最常用的文本检索模型——向量空间模型(Vector Space Model, VSM)吸引 了大量的研究人员对其进行研究,其中 TF-IDF 权重度量方法和文本排序算法是向量空间 模型中最集中研究的方向。

本文基于 TF-IDF 权重度量方法和余弦相似度排序准则,使用 Python 编程语言及结巴 分词等第三方开源库,实现了 web 内容的文本检索排序。以精确率、召回率、前 10 个结果 的正确率及前 10 个结果是否出现所找的内容为评价本检索算法的标准,经实验表明,该算 法的检索结果精确率极高,可正确返回要搜索的内容。76144

毕业论文关键词: 信息检索 排序 向量空间模型 TF-IDF 余弦相似度

1 引言 1

1。1  研究背景及意义 1

1。2 信息检索的问题难点 1

1。2。1  数据爬取 2

1。2。2  文本分词 2

1。2。3  索引的建立 2

1。2。4  查询处理 2

1。3 本文的主要工作与内容安排 3

2。  文本检索相关技术分析 4

2。1  引言 4

2。2。1  文本检索概述 4

2。2。2  文本检索过程 4

2。2  文本表示模型 5

2。2。1  文本解析 5

2。2。2  词项权重计算 6

2。2。3  向量空间模型 8

2。3  检索排序算法 8

2。4  检索效果评价 10

2。4。1  召回率 10

2。4。2 精确率 10

2。4。3  召回率与精确率的关系 11

3。  实验设计与结果分析 12

3。1  实验环境 12

3。1。1  实验平台 12

3。1。2  开发工具及函数库介绍 12

3。1。3  实验数据 13

3。2  实验程序设计 13

3。2。1  程序组成说明: 14

3。2。2  程序模块介绍 15

3。3  实验结果分析 16

结论 18

第 II 页 本科毕业设计说明书

19

参 考 文 献 20

本科毕业设计说明书 第 1  页

上一篇:SpringMVC及云服务的企业员工考评系统的设计与实现
下一篇:php+mysql禾粒农场智能管理系统仓储管理系统设计

Android手机考勤平台的设计与实现

java+mysql班级评优系统的设计实现

Python+mysql宠物领养平台的设计与实现

国产加密算法的研究与实现

jsp值得买导购网站的设计与实现

采用颜色共生矩阵的图像分析技术实现

局域网管理系统的设计与实现

AES算法GPU协处理下分组加...

从政策角度谈黑龙江對俄...

浅论职工思想政治工作茬...

提高教育质量,构建大學生...

上海居民的社会参与研究

酵母菌发酵生产天然香料...

浅谈高校行政管理人员的...

基于Joomla平台的计算机学院网站设计与开发

STC89C52单片机NRF24L01的无线病房呼叫系统设计

压疮高危人群的标准化中...