毕业论文
计算机论文
经济论文
生物论文
数学论文
物理论文
机械论文
新闻传播论文
音乐舞蹈论文
法学论文
文学论文
材料科学
英语论文
日语论文
化学论文
自动化
管理论文
艺术论文
会计论文
土木工程
电子通信
食品科学
教学论文
医学论文
体育论文
论文下载
研究现状
任务书
开题报告
外文文献翻译
文献综述
范文
基于Lucene.Net的站内搜索引擎的设计(3)
(4)处于网站的一些的保密性,要限制某些信息被搜索到,要考虑如何保护文件的私密性。
2.系统相关技术
2.1中文分词
分词是核心的算法,搜索引擎内部保存的就是一个个的“词(word)”。
英文
分词特别简单,按照空格分隔就可以。中文比较麻烦,把“北京,Hi欢迎你们大家”拆成“北京 Hi 欢迎 你们 大家”。Lucene.Net中不同的分词算法就是不同的类。所有分词的算法类都从Analyzer类继承,不同的分词算法有不同的优缺点。
(1)内置的StandardAnalyzer是将英文按照空格、标点符号等进行分词,将中文按照单个字进行分词,一个汉字算一个词。
(2)二元分词算法,每两个汉字算是一个单词,“欢迎你们大家”会分词为“欢迎 迎你 你们 们大 大家”。
2.2盘古分词
这个分词的思想就是匹配,但是针对对于多字的词,盘古分词设置了比较高高的优先级,使得分词结果与我们实际想要的结果非常接近。这个分词的优点是完全开源,结构清晰,方便在内部修改源代码,调整权重,并且有一套很好的词典管理工具。缺点就是它的内置的词典太过于混乱,需要我们手动进行修改。
在Lucene.Net的使用盘古分词:PanGu.Lucene.Analyzer.dll中定义了Analyzer的派生类型Lucene.Net.Analysis.PanGu.PanGuAnalyzer,与Tokenizer的派生类Lucene.Net.Analysis.PanGu.PanGuTokenizer,语法与Lucene.Net内置分词器相同
共3页:
上一页
1
2
3
下一页
上一篇:
下一代数据保护技术研究+文献综述
下一篇:
ASP.net在线订餐网站的设计+源代码
Android手机考勤平台的设计与实现
基于android的环境信息管理系统设计
java+mysql班级评优系统的设计实现
Python+mysql宠物领养平台的设计与实现
ASP.NET飞翔租贷汽车公司信...
基于激光超声检测金属材...
多频激励下典型非线性系统的振动特性研究
提高教育质量,构建大學生...
基于Joomla平台的计算机学院网站设计与开发
压疮高危人群的标准化中...
酵母菌发酵生产天然香料...
从政策角度谈黑龙江對俄...
STC89C52单片机NRF24L01的无线病房呼叫系统设计
浅谈高校行政管理人员的...
AES算法GPU协处理下分组加...
上海居民的社会参与研究
浅论职工思想政治工作茬...