第三章:最大匹配算法。介绍最大匹配算法的原理,并展示应用字典进行最大匹配算法的分词结果。
第四章:最大匹配扩展算法。介绍最大匹配扩展算法的原理,并展示扩展算法的分词结果。
第五章:最大匹配算法与扩展算法的比较。应用同一个字典,比较最大匹配算法与扩展算法的分词结果。
第吹冰章:汉字编码。论述在实现算法过程中遇到的汉字编码问题,同时介绍相关的汉字编码知识。
2  中文词典收集
2.1  词典简介
生活中大家常用字典,字典是用来收录单词的,也可称为词典。在基于字典的中文分词技术里,字典存储着大量的中文单词,基于字典的分词上面已经解释过,就是通过查询字典中的单词将中文语料切分出一个一个词语的过程。在分词处理的过程中,不同的算法用到不一样的字典,相应的,字典也有多种格式。由于本次论文讨论的算法是基于字典的,字典的格式以及收录的单词数量,直接关系着分词结果的好坏。对于一个只收录了1000个单词的字典和收录了10万个单词的词典,运用它们对语料进行分词的结果肯定是天壤之别。同时字典中收录的单词数量较多,整理的过程也是比较繁琐的,因此在本次毕业设计中,对于字典的收集和整理也是本次实验的一个重要环节。
上一篇:php+mysql装修公司施工管理系统的设计
下一篇:结合自适应图像片与图割的交互式图像分割算法研究

基于android的环境信息管理系统设计

基于激光超声检测金属材...

基于MOODLE平台的在线交互式学习设计

基于离散事件系统Petri网模型的可达图研究

基于高斯过程动态模型的时序数据恢复方法

基于深度学习的目标识别算法研究

MATLAB基于流形学习与神经网络的预测建模

酵母菌发酵生产天然香料...

浅论职工思想政治工作茬...

提高教育质量,构建大學生...

从政策角度谈黑龙江對俄...

压疮高危人群的标准化中...

上海居民的社会参与研究

基于Joomla平台的计算机学院网站设计与开发

AES算法GPU协处理下分组加...

STC89C52单片机NRF24L01的无线病房呼叫系统设计

浅谈高校行政管理人员的...