摘要进入 21 世纪,步入了高速信息时代,人们面对的信息量呈指数级成长,信息检索技术应运而生。存在着更大研究价值和广泛应用前景的文本检索技术已成为信息检索的重要分 支,文本检索领域最常用的文本检索模型——向量空间模型(Vector Space Model, VSM)吸引 了大量的研究人员对其进行研究,其中 TF-IDF 权重度量方法和文本排序算法是向量空间 模型中最集中研究的方向。

本文基于 TF-IDF 权重度量方法和余弦相似度排序准则,使用 Python 编程语言及结巴 分词等第三方开源库,实现了 web 内容的文本检索排序。以精确率、召回率、前 10 个结果 的正确率及前 10 个结果是否出现所找的内容为评价本检索算法的标准,经实验表明,该算 法的检索结果精确率极高,可正确返回要搜索的内容。76144

毕业论文关键词: 信息检索 排序 向量空间模型 TF-IDF 余弦相似度

1 引言 1

1。1  研究背景及意义 1

1。2 信息检索的问题难点 1

1。2。1  数据爬取 2

1。2。2  文本分词 2

1。2。3  索引的建立 2

1。2。4  查询处理 2

1。3 本文的主要工作与内容安排 3

2。  文本检索相关技术分析 4

2。1  引言 4

2。2。1  文本检索概述 4

2。2。2  文本检索过程 4

2。2  文本表示模型 5

2。2。1  文本解析 5

2。2。2  词项权重计算 6

2。2。3  向量空间模型 8

2。3  检索排序算法 8

2。4  检索效果评价 10

2。4。1  召回率 10

2。4。2 精确率 10

2。4。3  召回率与精确率的关系 11

3。  实验设计与结果分析 12

3。1  实验环境 12

3。1。1  实验平台 12

3。1。2  开发工具及函数库介绍 12

3。1。3  实验数据 13

3。2  实验程序设计 13

3。2。1  程序组成说明: 14

3。2。2  程序模块介绍 15

3。3  实验结果分析 16

结论 18

第 II 页 本科毕业设计说明书

19

参 考 文 献 20

本科毕业设计说明书 第 1  页

上一篇:SpringMVC及云服务的企业员工考评系统的设计与实现
下一篇:php+mysql禾粒农场智能管理系统仓储管理系统设计

采用颜色共生矩阵的图像分析技术实现

局域网管理系统的设计与实现

基于深度学习的目标识别算法研究

jsp《计算机硬件技术基础...

智能算法的海上应急救援基地选址优化设计

基于启发式算法的智能路径规划研究

java景点移动导游系统设计与实现

浅谈动画短片《天降好运》中的剧本创作

弹道修正弹实测弹道气象数据使用方法研究

紫陵阁

林业机械作业中的安全性问题【2230字】

适合宝妈开的实体店,适...

大学生就业方向与专业关系的研究

组态王文献综述

淮安市老漂族心理与休闲体育现状的研究

小学《道德与法治》学习心得体会

人事管理系统开题报告