当前在线人数:1 登录
云端分布式搜索技术 关注云端搜索技术:elasticsearch,nutch,hadoop,nosql,mongodb,hbase,cassandra

Solr1.4+Nutch1.2构建分布式搜索服务

网上有很多文章介绍配置solr+nutch,但感觉没多少是完整的,有些只是配置出用solr建立nutch索引并能用solradmin查找到数据就完事,我这篇文章主要介绍怎样把solr集成到nutch的搜索前台,让nutch能用到solr的索引服务从而构建出分布式搜索服务。由于本文主要介绍solr和n

Nutch1.2增加IKAnalyzer中文分词

原版nutch中对中文的处理是按字划分,而不是按词划分。为适应我们的使用习惯必须加上中文分词,我加的是 IKAnalyzer。下面是我的方法,我把前台和后台爬虫用两种方法实现中文分词,后台直接替换nutch的analyzer,前台则修改NutchAnalysis.jj(注:我的前台和后台是两个项目)

Nutch内容过滤的实现

Nutch插件机制非常好,它给我们提供了爬取各个步骤的接口,使我们能够自己定制想要的功能,关于nutch插件编写的例子请看我 之前的一篇文章,这里主要介绍下如何通过插件方式对爬取的内容进行过滤。我把需要过滤的内容以关键词的形式存储在数据库中 ,爬取时从数据库中提取到内存中,当建立索引时,如果网页包含

Nutch1.2增加插件例子

今尝试下给nutch1.2增加一个插件,于是到官网找了个例子,链接如下: http://wiki.apache.org/nutch/WritingPluginExample-0.9 这个例子实现的的是推荐网站,就是写关键字在content里,当别人搜索这个关键字时,你推荐的网站在搜索结果中排前,要实

nutch集成中文分词搜索时出现空白页解决方法

最近在研究nutch,我根据网上教程用插件方法把中文分词集成到nutch1.2中,运行爬虫可以,但把项目ant成war后,在网页中搜索索引里没有的词时能显示页面,但如果搜索索引里有的词语就会出现一个空白页,什么也没有,tomcat的控制台能显示出搜索结果,也没报错。于是我就一点一点地把新增代码移除,

nutch1.2标题关键词高亮方法

根据下面这个链接教程编码后试验发现标题只是加上了标签,并没有实现标签的效果。不知道作者用的是那个版本的nutch,我用1.2版没效果。 http://hi.baidu.com/conquer84/blog/item/50bc43eea1a147fdb