摘要简述了数据挖掘中关于分类问题的具有代表性的算法,对文中的文本分类的算法提供了理论支持。详细介绍了TF/IDF算法的原理以及各个术语的意义,并且介绍了这个方法在信息论里面的理论依据。基于数据挖掘的分类方法和TF/IDF方法的概念,对南京公积金网站的大量样本进行了分析,整理出这些文本样本的词语出现的频度,并由此确定用于分类的关键词。依据TF/IDF的思想,建立了权重模型,确定阈值和关键词的权重,再对新添加的文本进行分类。共建立了两种权重模型,分别从二维情况推广到多维情况。用Matlab表现了实验结果,并且对它们的分类效果运用图表的形式进行了比较。最终将分类器的准确率提高至接近80%。87571

毕业论文关键字 TF/IDF  分类  数据挖掘  权重  阈值  模型  分析

毕业设计说明书外文摘要

Title    Classification on Web based on TF/IDF Character 

                                                           

Abstract By a Brief introduction of representative classification arithmetic in Data Mining , it is easier to make the definition of text classification clear。 The method and theory of TF/IDF has been clarified in details, along with the meaning of the terms and the supportive evidence in Information Theory。 With all these definitions and theoretical basis, a lot of training and observation has been dong to the text samples from the Nanjing Gongjijin Web, which collects the term frequency。 By doing this, the key words can be found。 The model also decides the weight of the key words and the threshold value of classed。 Therefore the new text samples can be classified using the model automatically。 Also the performance of the model then is going to get carefully analyzed and then optimized。 Finally the correct rate is nearly 80%。

Key words  TF/IDF  classification  data mining  weight threshold vaule  model analyze

目   次

1  引言 1源-于,优~尔^论=文.网www.chuibin.com 原文+QQ7520~18766

1。1  信息分类的研究背景 1

1。2  主要工作及安排 1

2  数据挖掘中的常见分类算法介绍 3

2。1  基本概念介绍 3

2。2  分类算法介绍 4

3  TF/IDF算法的介绍 12

3。1  概念介绍 12

3。2  TF/IDF的信息论依据 13

4  对南京公积金网站的研究及分类情况 15

4。1  准备工作 15

4。2  权重(Weight)的确定 15

结  论 27

5。1  图表实验结果 27

5。2  关于实验结果的思考 27

致  谢 28

参 考 文 献 29

1  引言

1。1  信息分类的研究背景

    人类进入网络时代之后信息趋向多元复杂,数量更是不可计算,大数据的时代已经来临,我们需要从这些信息中提取自己所需要的。所以,对这些信息进行分类是处理它们的第一步。

上一篇:中红外强激光场作用下类氢原子高次谐波的产生
下一篇:基于移动通信的工业生产线状态监测技术研究

基于TCP/IP技术的转向架振动测试系统设计

基于PM2.5浓度的健康出行路径规划及实现

基于涡旋电磁波的新型雷达成像技术研究

基于相关滤波器的长期跟踪算法研究

基于ZigBee协议轨道交通环...

基于QT的图像处理系统设计

基于LBG算法的语音信号的矢量量化方法设计

MNL模型历史城区居民活动...

大规模MIMO系统的发展研究现状

遥感土地用变化监测国内外研究现状

小型通用机器人控制系统设计任务书

高效课堂教师问卷调查表

浅析施工企业保理融资成...

《水浒传》中血腥暴力研...

从企业eHR建设谈管理信息...

PCI+PID算法直流力矩电机速...

提高小學语文課堂朗读教...