当前在线人数:2 登录
云端分布式搜索技术 关注云端搜索技术:elasticsearch,nutch,hadoop,nosql,mongodb,hbase,cassandra

标签: cassandra (3)

nutch2.0+cassandra中文网页乱码问题

用nutch2.0+cassandra1.0爬取和存储网页时发现gbk编码的网页解析提取文本时中文全都变成乱码,非常奇怪,之前nutch1.x从来就不会出现中文乱码的问题的,因为nutch1.x和nutch2.x用的爬虫代码差不多是一样的,所以我猜可能是保存到cassandra时有问题。

eclipse中调试nutch2.0+cassandra

 很早官方就开始了nutch2.0的研发,而一直都是两线同时研发的,一个是普通版,一个是gora版本,也就是nutch2.0。下面介绍下怎样把项目导进eclipse中,这里我们的存储层使用nosql cassandra,本来想先使用mysql试试,发现启动不了爬虫,调试下发现原来还没有完全实现gora的sql数据库的存储功能,所以选择易用的cassandra作为测试。

运行Cassandra8.0服务

1.安装配置JDK,自己找教程 2.修改cassandra目录下的conf/log4j-server.properties 修改系统日志文件的存放位置,例: linux下 log4j.appender.R.File=/var/cassandra/log/system.log windows下 log