(3)轻形式、重内容:由于网络新闻现大都来自传统媒体,大多原文转发,或是对标题进行略微修改,对原文进行一些删节,网络新闻的描述方式和内容布局结构中体上没有大的变化。

3.3 网络新闻中的命名实体

网络新闻文中也有六个要素:人物、时间、地点、事件发生的原因、经过、结果,根据这些特性,并为了简化研究,将本文研究的命名实体归结为:人名、时间/日期、地名和机构名四类。

(1)网络新闻文本中的人名有:报告撰写者、新闻事件发生者、记者等。

(2)时间/日期包括新闻发表时间、新闻发生时间以及相关时间/日期。

(3)地名:命名实体中的地名与中文词语的地名大体相似,但命名实体中的地名更强调的是被大众所公认的、正式的地名。包括洲、州、国家、省、市、县、区等(不同国家地域划分方式不尽相同)。

(4)机构名:机构泛指机关、团体或其企事业单位,包括学校、公司、医院、研究所和政府机关等。

(5)事件名:指新闻中提及发生事件的名称。

3.3.1 人名的特点

为简化研究,本论文仅研究中国人名。中国人名数量众多、规律各异,有很大的随意性,对其进行识别的主要困难在于:(1)中国人名构成的多样性;(2)人名内部相互成词;(3)人名与其上下文组合成词;(4)歧义理解。

中国人名构成的形式有:(1)姓+名,如:、朱德、诸葛亮;(2)有名无姓,如:“海涛很高兴”;(3)有姓无名,如:“张说李已经离开北京了”;(4)姓+前后缀,如:、小吴、老李、熊某;(5)港澳台等地已婚妇女的姓名有时会冠夫姓,如:张李氏、彭张青; 

人名内部相互成词,指的是姓与名、名与名之间本身就是一个已经被核心词典收录的词,如:[王国]维、汪洋……根据我们对8万条人名的统计,内部成词的比例高达6.89%。[5]

人名与其上下文组合成词包括人名的首部(姓或名的首字)与人名的上文成词以及人名的尾部(姓或名的尾字)与下文成词,例如:“这里[有关]羽的介绍”;“费孝通向人大常委会提交书面报告。”[5]论文网

歧义理解主要是有同源歧义冲突引起的:“江苏省昆山周庄”中的“周庄”存在中国人名与地名的两种歧义理解,“郑重和同学”存在人名“郑重”和“郑重和”歧义。

3.3.2 地名的特点

本论文着重讨论中文地名的特点,中文地名主要有如下特点:

(1)中文地名数量大,没有明确规范的地名定义并且随着经济和社会的发展,会有新的地名不断出现。

(2)中文地名用词比较自由、分散,同时中文地名用词又有相对集中的覆盖能力。

(3)地名结尾经常有地名特征词出现,如“自治区、路、水库”。但地名特征词出现的情况比较复杂:既可以作为普通用词出现,又可以出现在地名其它位置。

(4)地名长度没有严格限制,短的如“京”,长的如“双江拉祜族佤族布朗族傣族自治县”。

(5)可作单字词的汉字在地名中经常出现,如“西|直|门、马|家|塔。”

(6)地名中不同位置可含有多字词,如“龙王|洞|山、兵书|宝剑|峡”等。

(7)地名有时同一些介词、动词、方位词之类的指示词出现,但有些指示词也可以作为地名组成部分。

(8)经常多个地名一起出现,如“/~吉林省~/~四平市~/~梨树县~/~梨树镇~/~霍家店村~/”。

上一篇:网络外部性下电子商务网站的用户忠诚测评模型研究
下一篇:中英文Hashtag标签的比较研究

IEEE802.15.4网络自适应策略研究

MATLAB基于流形学习与神经网络的预测建模

社交网络个性化推荐方法对比研究

jsp+mysql网络招标评审系统设计+源代码

基于生物启发神经网络的AUV三维路径规划

SOM神经网络多机器人任务分配算法研究

jsp游戏购买系统设计

酵母菌发酵生产天然香料...

提高教育质量,构建大學生...

浅谈高校行政管理人员的...

AES算法GPU协处理下分组加...

基于Joomla平台的计算机学院网站设计与开发

上海居民的社会参与研究

从政策角度谈黑龙江對俄...

压疮高危人群的标准化中...

浅论职工思想政治工作茬...

STC89C52单片机NRF24L01的无线病房呼叫系统设计