当前在线人数:2 登录
云端分布式搜索技术 关注云端搜索技术:elasticsearch,nutch,hadoop,nosql,mongodb,hbase,cassandra

标签: nutch (14)

nutch2.1+mysql+elasticsearch整合linux单机部署

这次主要介绍下nutch2.1和mysql和elasticsearch的整合,是在单机上运行,并不是分布式部署。
1、下载nutch2.1 2、配置nutch使用mysql作为数据存储  3、修改conf的nutch-site.xml 
4、使用ant编译源码。 5、设置待抓取的网站 6、创建数据库和表 7、执行爬行操作
8、执行索引操作

nutch2.0+cassandra中文网页乱码问题

用nutch2.0+cassandra1.0爬取和存储网页时发现gbk编码的网页解析提取文本时中文全都变成乱码,非常奇怪,之前nutch1.x从来就不会出现中文乱码的问题的,因为nutch1.x和nutch2.x用的爬虫代码差不多是一样的,所以我猜可能是保存到cassandra时有问题。

eclipse中调试nutch2.0+cassandra

 很早官方就开始了nutch2.0的研发,而一直都是两线同时研发的,一个是普通版,一个是gora版本,也就是nutch2.0。下面介绍下怎样把项目导进eclipse中,这里我们的存储层使用nosql cassandra,本来想先使用mysql试试,发现启动不了爬虫,调试下发现原来还没有完全实现gora的sql数据库的存储功能,所以选择易用的cassandra作为测试。

分布式爬虫nutch2.0初体验------三大亮点

 实在是等不及了,下了开发版的nutch2.0来玩玩,nutch2.0有什么不同呢?从官网wiki(见参考资料)可看到,主要是以下几个方面:

1.抽象存储层

 把存储层抽象出来,不仅像之前那样可以存放在hdfs上,也可以存在其它nosql中,如:hbase,cassandra,或关系数据库。

nutch1.3和solr3.x集成时出现Invalid UTF-8 character问题

今天更新了下nutch,发现已经出了1.3版,下载时就发现只有70多M,之前的可是100多M的,肯定是什么东西删了,下载完后发现原来nutch自带的搜索功能都被删了,现在只能用solr作为索引和搜索来使用。

nutch1.2运行时可能发生的错误以及解决办法

错误1.由linux下允许打开的最大文件数量引起 错误消息: java.io.IOException: background merge hit exception: _0:C500->_0 _1:C500->_0 _2:C500->_..... [optimize] at org.apache.l

提高nutch爬取效率

Here are the things that could potentially slow down fetching 下面这些是潜在的影响爬取效率的内容: 1) DNS setup 2) The number of crawlers you have, too many, too few. 3

Nutch1.2插件实现or查询

Nutch的搜索前台的默认搜索方式是and,也就是所有关键词都必须出现。现在想实现or查询发现nutch本身并不支持,在去官方论坛搜索无果,改源代码无果的情况下想到用插件实现or查询,于是参照query-base插件改写了个query-or插件,源码如下: publicclass OrQueryFi

Solr1.4+Nutch1.2构建分布式搜索服务

网上有很多文章介绍配置solr+nutch,但感觉没多少是完整的,有些只是配置出用solr建立nutch索引并能用solradmin查找到数据就完事,我这篇文章主要介绍怎样把solr集成到nutch的搜索前台,让nutch能用到solr的索引服务从而构建出分布式搜索服务。由于本文主要介绍solr和n

Nutch1.2增加IKAnalyzer中文分词

原版nutch中对中文的处理是按字划分,而不是按词划分。为适应我们的使用习惯必须加上中文分词,我加的是 IKAnalyzer。下面是我的方法,我把前台和后台爬虫用两种方法实现中文分词,后台直接替换nutch的analyzer,前台则修改NutchAnalysis.jj(注:我的前台和后台是两个项目)

Nutch内容过滤的实现

Nutch插件机制非常好,它给我们提供了爬取各个步骤的接口,使我们能够自己定制想要的功能,关于nutch插件编写的例子请看我 之前的一篇文章,这里主要介绍下如何通过插件方式对爬取的内容进行过滤。我把需要过滤的内容以关键词的形式存储在数据库中 ,爬取时从数据库中提取到内存中,当建立索引时,如果网页包含

Nutch1.2增加插件例子

今尝试下给nutch1.2增加一个插件,于是到官网找了个例子,链接如下: http://wiki.apache.org/nutch/WritingPluginExample-0.9 这个例子实现的的是推荐网站,就是写关键字在content里,当别人搜索这个关键字时,你推荐的网站在搜索结果中排前,要实

nutch集成中文分词搜索时出现空白页解决方法

最近在研究nutch,我根据网上教程用插件方法把中文分词集成到nutch1.2中,运行爬虫可以,但把项目ant成war后,在网页中搜索索引里没有的词时能显示页面,但如果搜索索引里有的词语就会出现一个空白页,什么也没有,tomcat的控制台能显示出搜索结果,也没报错。于是我就一点一点地把新增代码移除,

nutch1.2标题关键词高亮方法

根据下面这个链接教程编码后试验发现标题只是加上了标签,并没有实现标签的效果。不知道作者用的是那个版本的nutch,我用1.2版没效果。 http://hi.baidu.com/conquer84/blog/item/50bc43eea1a147fdb