摘要命名实体识别是分词的一项重要任务,也是分词的主要难点之一。本文对中英文命 名实体识别的相关研究及语料库、评测指标等资源进行了综述,探讨了中文命名实体的 特点及识别的难点,其中详细分析了人名、地名、机构名这三类各自的特点,并实现了 中文命名实体识别算法。该算法是基于真实的语料库,在角色标注的基础上,采用层叠 的隐马尔可夫模型的方法来实现的。该层叠模型分为四层,每层之间互相联系,自底向 上依次是人名识别层、简单地名识别层、嵌套地名识别层和机构名识别层。78941 

毕业论文关键词中文命名实体识别隐马尔可夫模型 角色标注

毕 业 设 计 说 明 书 外 文 摘 要

TitleNamed entity recognition technology based on statistical machine learning 

Abstract Named entity recognition is an important task in word segmentation,and one of the main difficulties in word segmentation。 Firstly, this paper reviews research and resources of Chinese and English named entity recognition, and then discusses on the characteristics and difficulties of Chinese named entity recognition。 Finally, it describes an approach for Chinese named entity recognition based on real corpus, based on role tagging and using the cascaded Hidden Markov Model。 This model is consists of four layers, each layer is in contact with other layers。 The four layers from bottom to top are name recognition layer, simple location name recognition layer, complex location name recognition layer and organization name recognition layer。

KeywordsChinese named entity recognitionHidden Markov Modelrole tagging

本科毕业设计说明书 第 I 页

1引言1 

2命名实体识别研究文献和资源综述2 

2。1文献综述

2。2资源综述 2 

3 中文命名实体的特点4 

3 。1 人名的特点 4 

3 。2 地名的特点 4 

3 。3 机构名的特点 5 

4隐马尔可夫模型6 

4 。1 概述 6 

4 。2 组成 6 

4 。3 三个典型问题 7 

4 。4解决问题的基本步骤 7 

4。5Viterbi 算法 8 

5 层叠的隐马尔可夫模型9 

5。1人名识别层 9 

5。2简 单 地 名 识 别 层 1 1 

5。3嵌 套 地 名 识 别 层 1 3 

5。4机构名 识别层1 4 

6 算法实现和实验分析16 

6。1算 法 实 现1 6 

6。 2 评 测 指 标 与 评 测 集 1 9 

6。 3 评 测 实 验 结 果 1 9 

6。 4 结 果 分 析2 1 结论 2 2 参考文献 23 

第 II页 本科毕业设计说明书

1 引言

命名实体识别主要是指识别出人名、地名、机构名等实体,日期、时间等时间词,以及 货币价值、百分比等数量词[1]。命名实体识别不仅是分词过程中的一个重要组成部分,还广 泛应用于信息抽取、机器翻译、问答系统、信息检索等其他多种自然语言处理技术。1996 年, 命名实体识别被首次用于 MUC-6,指出了人名、地名与机构名,以及时间、数量等数学表达 式在语义识别上有重要意义[2]。在此之后的 MUC-7 的 MET-2 以及 IEER-99、CoNLL-2002、 CoNLL-2003、IREX、LREC 等一系列国际会议上,都将命名实体识别作为评测指标之一[3]。 

目前,在英文命名实体识别方面,研究已经有很大的进展,获得了较好的识别效果,在 MUC 和 ACE 会议上,很多算法的评测结果的准确率、召回率、F1 值都能达到 90%。而中文 命名实体识别评测结果普遍比英文结果偏低,其中,以机构名的识别尤为困难。 

上一篇:多目标优化遗传算法NSGA-II的研究与实现
下一篇:FKP基于局部梯度直方图的指关节纹识别

基于Android的电子拍卖系统设计与开发

基于Web应用的致胜公司企业内部培训系统设计

Matlab基于多旋翼飞行器的飞行控制系统设计

基于字典学习的多视图低维相关表示方法研究

基于android通讯与游戏的手...

基于android的环境信息管理系统设计

基于激光超声检测金属材...

浅谈农村大气环境保护的制度构建【1868字】

个案管理茬老年糖尿病患...

淮安市高校足球运动损伤问卷调查表

新疆农林高校學生昆虫生...

2021年什么行业赚钱,适合...

肢体语言在小学英语教学中的应用浅谈

日语论文中日酒文化对比研究

激光模拟训练器材国内外研究现状

大淘宝网的虚假交易研究

发酵米粉优势菌株的发酵特性研究