摘要随着信息的过量增长,面对大规模的信息,用户难以找到自己真正需要的信息,信息抽取技术应运而生。在该领域中命名实体是文本的基本信息要素,因而命名实体的抽取是信息抽取的基础。本文从介绍命名实体出发,基于FuDanNLP系统网络新闻文本中的命名实体自动抽取情况进行了研究。本论文主要分析了人名、时间、地名和机构名四类命名实体的抽取情况,通过测试发现该系统在自动抽取命名实体过程中存在的问题并分析了问题产生的原因,进而提出了改进方案。之后着重对机构名的抽取设定了规则和算法,在对改进后的系统进行了测评后,发现系统在抽取命名实体的查全率和查准率均有所提升,最后对系统的发展提出的展望。66770

毕业论文关键词  命名实体  网络新闻  信息抽取   FuDanNLP

毕 业 论 文 外 文 摘 要

Title   Study on Automatic Extraction of Named Entity in 

 e-News Text                   

Abstract

With the excessive growth of information, it’s very difficult for users

to find the information that they really need from large amounts of information. Then information extraction technology came into being, and the named entity is the basic information elements of text in this field. In this paper, I firstly describe named entities and research the named entity automatic extraction in cyber news text by using FuDanNLP system. This paper analyzes the extraction of four types of named entities , namely names, times, places and organization names. After doing experiment , I found the problems in FuDanNLP system and explored the causes of these problems. And I improve the system. Besides, I reset the rules and designed algorithms of the extraction of organization names. Finally, I evaluated the new system and find the accuracy rate and the recall rate of the system are increased. But there’re many problems in the new system, so I finally put forward prospect.

Keywords  named entity ; e-news;  information extraction;  FuDanNLP

目   次

1 引言 1

2 命名实体综述 1

2.1命名实体的类型 1

2.2 命名实体的识别 2

2.3 命名实体抽取方法分析 2

3 网络新闻文本中的命名实体分析 4

3.1 新闻文本的特点分析 4

3.2 网络新闻文本的特点 4

3.3 网络新闻中的命名实体 5

3.3.1 人名的特点 6

3.3.2 地名的特点 6

3.3.3 机构名的特点 7

4 中文命名实体抽取系统——FuDanNLP 9

4.1 FuDanNLP简介 9

4.1.1 FuDanNLP的组织结构 9

4.1.2 FuDanNLP命令行调用使用示例 10

4.1.3 FuDanNLP目录组织机构 11

4.1.4 FuDanNLP Java包组织结构 11

4.1.5 FuDanNLP总体流程 12

4.2 命名实体识别 12

4.3 FuDanNLP的研发路线 12

4.4 性能测试

上一篇:网络外部性下电子商务网站的用户忠诚测评模型研究
下一篇:中英文Hashtag标签的比较研究

IEEE802.15.4网络自适应策略研究

MATLAB基于流形学习与神经网络的预测建模

社交网络个性化推荐方法对比研究

jsp+mysql网络招标评审系统设计+源代码

基于生物启发神经网络的AUV三维路径规划

SOM神经网络多机器人任务分配算法研究

jsp游戏购买系统设计

适合宝妈开的实体店,适...

林业机械作业中的安全性问题【2230字】

组态王文献综述

紫陵阁

大学生就业方向与专业关系的研究

人事管理系统开题报告

弹道修正弹实测弹道气象数据使用方法研究

淮安市老漂族心理与休闲体育现状的研究

浅谈动画短片《天降好运》中的剧本创作

小学《道德与法治》学习心得体会