Nutch安装笔记

一 系统要求
下面是Nutch文档的说明
1.Java 1.4.x, either from Sun or IBM on Linux is preferred. Set NUTCH_JAVA_HOME to the root of your JVM installation.
2.Apache′s Tomcat 4.x.
3.On Win32, cygwin, for shell support. (If you plan to use CVS on Win32, be sure to select the cvs and openssh packages when you install, in the "Devel" and "Net" categories, respectively.)
4.Up to a gigabyte of free disk space, a high-speed connection, and an hour or so.
关于第一项,我也不清楚是说JAVA的J2SE版本还是J2EE版本。上一次我用J2SE的时候就没有成功。但这并不能确定一定和JAVA版本有关。这里我使用的是J2EE5.0(前几天研究什么东西刚下的,顺便拿来用,呵呵)JAVA在LINUX的安装可以参考我以前的BLOG。然后就是设定系统环境变量NUTCH_JAVA_HOME了。
#vi /etc/profile

加入下面内容:
NUTCH_JAVA_HOME="/usr/local/j2ee1.5/jdk"
EXPORT最后加入 NUTCH_JAVA_HOME 数据挖掘论坛

第二项安装TOMCAT很简单,下载binary包解压即可。我用的是tomcat5.0.28
第三项我们用的是Linux不用管Windows的设置
第四项预留足够的硬盘空间(G字节级别)。我只搜我的小站,估计也占用不了多少空间^_^ 数据挖掘工具

二 安装使用Nutch
1.安装
下载Nutch-0.6.tar.gz
#tar zxvf Nutch-0.6.tar.gz
#mv Nutch-0.6 /usr/local/nutch
测试Nutch
#/usr/local/nutch/bin/nutch
出现几行提示信息,说明安装成功

数据挖掘研究院

2.抓取页面
我只做了内部网(Intranet)的测试
在 nutch 目录中创建一个包含该网站顶级网址的文件 urls ,包含如下内容:
http://10.40.x.x/(我的主机的内网网址,这里用我以前架的LAMP测试)

数据挖掘交友

#cd /usr/local/nutch
#touch urls
#vi urls
加入 http://10.40.x.x/ 保存退出

数据挖掘工具

然后编辑conf/crawl-urlfilter.txt 文件,设定过滤信息
+^http://10.40.x.x/
保存退出以后开始抓取了! 数据挖掘工具

#bin/nutch crawl urls -dir lystudio.test -depth 2 -threads 4 >& crawl.log 数据挖掘工具

depth 参数指爬行的深度,这里处于测试的目的,选择深度为 2 ;
threads 参数指定并发的进程 这是设定为 4
只过了2分钟,爬完了(站太小了……) 数据挖掘实验室

之后配置 Tomcat (我的 tomcat 安装在 /usr/local/tomcat5) , 数据挖掘论坛

# rm -rf /usr/local/tomcat5/webapps/ROOT*
# cp nutch-0.6.war /usr/local/tomcat5/webapps/ROOT.war
# cd /usr/local/tomcat5/webapps/
# jar xvf ROOT.war
# ../bin/catalina.sh start
浏览器中输入 http://localhost:8080 查看结果(远程查看需要将 localhost 换成相应的IP): 数据挖掘交友

  数据挖掘实验室

出现了页面!不过测试发现不能正常搜索页面,并出现以下错误:

500 Servlet Exception
java.lang.NullPointerException
    at net.nutch.searcher.NutchBean.init(NutchBean.java:82)
    .....

去Nutch Wiki找资料,据说是segment文件夹位置的问题。默认的是./segment所以我们应该修改为实际的地址。我的是
/usr/local/nutch/lystudio.test/segment
解决方法是这样描述的:
找到tomcat的ROOT目录下的一个文件:nutch-site.xml

数据挖掘工具

#vi /usr/local/tomcat5/webapps/ROOT/WEB-INF/classes/nutch-site.xml

数据挖掘实验室

修改成下面样式:

数据挖掘研究院

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="nutch-conf.xsl"?> 数据挖掘交友

<!-- Put site-specific property overrides in this file. -->

数据挖掘交友

<nutch-conf>
<property>
  <name>searcher.dir</name>
  <value>/usr/local/nutch/lystudio.test</value>
  <description>My path to nutch′s searcher dir.</description>
</property>
</nutch-conf>

然后重启TOMCAT,终于可以搜索了: 数据挖掘工具

 

数据挖掘交友

至此我的测试已经完成。关于中文搜索,以后有时间再做(可以发现,上面页面的中文在Firefox1.0.5下有问题,调整页面编码也没有起作用,应该是Nutch配置中修改吧)。
说明:本人对搜索引擎没有任何研究,这里只是体验一次搜索的乐趣而已^_^ 数据挖掘论坛

[数据挖掘专家] [数据挖掘研究院] [数据挖掘论坛] [数据挖掘实验室]
上一篇:Page Rank教程
下一篇:文本自动分类的基础Term频率计算
最新评论共有 0 位网友发表了评论 , 查看所有评论
发表评论( 不能超过250字,需审核,请自觉遵守互联网相关政策法规。 )
匿名?
数据挖掘网站导航 数据挖掘论坛导航
  • 数据挖掘工具
  • 数据挖掘论坛
  • DataCruncher - Cognos
  • MineSet - MathSoft
  • Intelligent Miner - GainSmarts
  • Sqlserver - SAS - Clementine
  • CART - Weka - WizSoft
  • NeuroShell - ModelQuest
  • data mining tools - Darwin
  • 数据挖掘交友
  • 数据挖掘博客
  • 数据挖掘工具
  • 数据挖掘资源
  • 数据挖掘技术算法
  • 数据挖掘相关期刊、会议
  • 研究院联盟合作专区
  • 数据挖掘基础与相关技术
  • 数据挖掘厂商与就业
  • 数据挖掘研究者乐园
  • 知名厂商数据挖掘工具资料
  • 国内数据挖掘实验室
  • Foreign Data Mining Lab
  • 热点关注
  • Mercator: A Scalable, Extensible Web Cra
  • 什么是垂直搜索引擎(之二)
  • Writing a web crawler
  • 互联网搜索的未来
  • 国家版权局版权司副司长许超:关于搜索引擎
  • 百度数分钟内闪电裁员 企业软件事业部遭抛
  • 我对垂直搜索引擎的几点认识
  • Google Patent Filings by the Dozen
  • Manageability - Open Source Web Crawlers
  • 微软卡位第三代搜索技术 认为Google将很快
  • 论坛最新话题
  • Foundations of Statistical Natural Langu
  • Game Theory meet Data Mining: A Recent P
  • System Building: How does it help or hin
  • 数据挖掘与Clementine培训
  • 新手报到
  • 求 SASEM 客户流失预测分析
  • 数据挖掘工程师/搜索研究院—北京——无线
  • 数据挖掘入门介绍(如何着手数据挖掘)
  • Information Overload Survey Results
  • The INEX 2005 Workshop on Element Retrie
  • 相关资讯
  • 谷歌宣布进军可替代能源 计划投资4.4万亿美
  • 搜索大战成Web 2.0操作系统之争
  • 7月美国搜索市场环比增长2% 雅虎微软成输家
  • 网页面向搜索引擎的搜索引擎优化
  • 史上最具技术创新的10大搜索引擎
  • Google如何预测下一届美国总统
  • 微软1亿美元收购语义搜索引擎Powerset
  • 很黄很暴力:人肉搜索引擎
  • OpenSocial只不过是Google公关骗局
  • 数据之美 百度GOOGLE统计的秘密
  • 数据挖掘实验室资料
  • 数据挖掘博客地址
  • 数据挖掘实验室网站地址
  • Prepare for Medicare audits by using dat
  • 注册成为SAS用户与爱好者俱乐部会员
  • 水南梅
  • 明日烟
  • 新人报道
  • 下载
  • 厦门服务器托管,450元/月—0592-5177319 高
  • 买空间送域名--0592-5177319 高静