摘要简述了数据挖掘中关于分类问题的具有代表性的算法,对文中的文本分类的算法提供了理论支持。详细介绍了TF/IDF算法的原理以及各个术语的意义,并且介绍了这个方法在信息论里面的理论依据。基于数据挖掘的分类方法和TF/IDF方法的概念,对南京公积金网站的大量样本进行了分析,整理出这些文本样本的词语出现的频度,并由此确定用于分类的关键词。依据TF/IDF的思想,建立了权重模型,确定阈值和关键词的权重,再对新添加的文本进行分类。共建立了两种权重模型,分别从二维情况推广到多维情况。用Matlab表现了实验结果,并且对它们的分类效果运用图表的形式进行了比较。最终将分类器的准确率提高至接近80%。87571

毕业论文关键字 TF/IDF  分类  数据挖掘  权重  阈值  模型  分析

毕业设计说明书外文摘要

Title    Classification on Web based on TF/IDF Character 

                                                           

Abstract By a Brief introduction of representative classification arithmetic in Data Mining , it is easier to make the definition of text classification clear。 The method and theory of TF/IDF has been clarified in details, along with the meaning of the terms and the supportive evidence in Information Theory。 With all these definitions and theoretical basis, a lot of training and observation has been dong to the text samples from the Nanjing Gongjijin Web, which collects the term frequency。 By doing this, the key words can be found。 The model also decides the weight of the key words and the threshold value of classed。 Therefore the new text samples can be classified using the model automatically。 Also the performance of the model then is going to get carefully analyzed and then optimized。 Finally the correct rate is nearly 80%。

Key words  TF/IDF  classification  data mining  weight threshold vaule  model analyze

目   次

1  引言 1源-于,优~尔^论=文.网www.chuibin.com 原文+QQ7520~18766

1。1  信息分类的研究背景 1

1。2  主要工作及安排 1

2  数据挖掘中的常见分类算法介绍 3

2。1  基本概念介绍 3

2。2  分类算法介绍 4

3  TF/IDF算法的介绍 12

3。1  概念介绍 12

3。2  TF/IDF的信息论依据 13

4  对南京公积金网站的研究及分类情况 15

4。1  准备工作 15

4。2  权重(Weight)的确定 15

结  论 27

5。1  图表实验结果 27

5。2  关于实验结果的思考 27

致  谢 28

参 考 文 献 29

1  引言

1。1  信息分类的研究背景

    人类进入网络时代之后信息趋向多元复杂,数量更是不可计算,大数据的时代已经来临,我们需要从这些信息中提取自己所需要的。所以,对这些信息进行分类是处理它们的第一步。

上一篇:中红外强激光场作用下类氢原子高次谐波的产生
下一篇:基于移动通信的工业生产线状态监测技术研究

认知无线电网络中基于双...

基于TCP/IP技术的转向架振动测试系统设计

基于PM2.5浓度的健康出行路径规划及实现

基于涡旋电磁波的新型雷达成像技术研究

基于相关滤波器的长期跟踪算法研究

基于ZigBee协议轨道交通环...

基于QT的图像处理系统设计

家电制造企业绿色供應链...

农村幼儿教育开题报告

透过家徽看日本文化家紋から見る日本文化

论商业银行中间业务法律...

高校体育场馆效益研究【2772字】

基于安卓平台的二维码会议管理系统设计

“时尚与旅游”电子杂志的设计制作

ASP.net+sqlserver会员管理系统设计

企业科研管理中统计报表...

华夫饼国内外研究现状