中国科学院计算机技术研究所的中文分词技术以多层隐马尔可夫模型的汉语词法分析系统ICTCLAS为基础,包括分词、词性标注、命名实体识别和新词识别功能,目前已有ICTCLAS3.0版本,可能是当前最好的汉语词法分析器。

总的来说,还是没有一个系统权威性的分词系统出现,致使中文信息处理遭遇瓶颈[5]。国外的信息处理技术的借鉴也要在对文本进行分词之后。中文是一种相当复杂的语言,对于同一篇文本,不同的人有不同的分词方法。即便是同一个人在不同的时间对同一篇文本的分割也不尽相同。中文表达的复杂性是分词的主要困难,中文中几乎所有的单个的字可以当作词使用,同时它们也可以和其他的字一起组成复合词。复合词在现代中文信息中占有相当重要的地位,很多时候我们很难区分低频复合词是单个的字还是一个词语。词典也不可能涵盖所有的低频复合词。同样的意思可能有很多不同的表达方式,固定的短语、俗语只要稍稍改变词语的位置语义就有可能会发生很大的变化就像“鸡蛋”和“蛋鸡”,更别提还有一些特定名词。

上一篇:RFID技术国内外研究现状概况和发展趋势
下一篇:图像超分辨率技术的研究现状

能量检测技术的研究现状与发展

动漫网站国内外研究状况以及现发展水平

酒店管理系统国内外研究现状和发展趋势

连续-离散型状态观测器的研究现状与发展

振动监测及故障诊断技术...

全域旅游节事活动研究现状和发展趋势

远程太阳能电站监控系统发展与研究现状

酵母菌发酵生产天然香料...

浅论职工思想政治工作茬...

STC89C52单片机NRF24L01的无线病房呼叫系统设计

基于Joomla平台的计算机学院网站设计与开发

上海居民的社会参与研究

AES算法GPU协处理下分组加...

浅谈高校行政管理人员的...

提高教育质量,构建大學生...

压疮高危人群的标准化中...

从政策角度谈黑龙江對俄...