需要的运行环境:
1、Tomcat(Web服务器),可以下载最新的Tomcat6
2、Jdk(java sdk),下载java6
3、cygwin(在windows下运行unix shell command需要),下载最新版本2.578
4、Nutch,下载0.9版本
把上面的软件下载安装好,还需要设置些环境变量:
JAVA_HOME,设置成你安装的Jdk的路径,比如D:\soft\jdk6
NUTCH_JAVA_HOME,设置成和JAVA_HOME一样
TOMCAT_HOME,设置Tomcat的安装目录,比如D:\Soft\Tomcat60
把这些添加到Path中,%JAVA_HOME%\bin;TOMCAT_HOME%\bin\
CLASSPATH,添加 .;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar
接下来还要做下面一些修改:
以下假定Nutch的安装目录是D:\soft\nutch09,Tomcat安装目录D:\Soft\Tomcat60
1、修改nutch下的conf/crawl-urlfilter.txt文件,将# accept hosts in MY.DOMAIN.NAME这行下的
MY.DOMAIN.NAME修改成你想抓取的域名,比如修改成下面这样的:
+^http://([a-z0-9]*\.)*sina.com/,表示要抓取新浪的网页
2、打开Cygwin
cd d:nutch
在此目录下执行
bin/nutch crawl urls -dir crawled -depth 3 -topN 50 >& crawl.log
对刚才设置的网站网页进行抓取,结果保存在D:\soft\nutch09\crawled文件夹下。
3、在nutch安装目录下新建一个urls目录,在urls目录下新建一个urls.txt文件,在此文件中添加如下这样一行数据:http://www.sina.com/,注意此处添加的url地址必须是在crawl-urlfilter.txt文件指定的域名下的。
4、将D:\soft\nutch09\nutch-0.9.war改名为nutch.war,并复制到D:\Soft\Tomcat60\webapps目录下
5、进入在Tomcat安装,在conf目录下新建一个nutch.xml文件,并输入以下内容:
<Context path="" debug="5" privileged="true" docBase="nutch"/>
6、启动Tomcat,待nutch.war解压后,打开D:\Soft\Tomcat60\webapps\nutch\WEB-INF\classes\nutch-site.xml文件,将nutch-default.xml文件中的内容粘贴到nutch-site.xml文件中,找到nutch-site文件中的searcher.dir项,将它的value值改成 D:\soft\nutch09\crawled\ ,即刚才抓取结果存放的位置;找到http.agent.name属性,value值改成Nutch;找到http.robots.agents属性,value值改成Nutch,*;找到 http.agent.description属性,value值改成Nutch Search Engineer;找到http.agent.url属性,value值改成http://lucene.apache.org/nutch/bot.html;找到http.agent.email属性,value值改成nutch-agent@lucene.apache.org;找到http.agent.version属性,value值改成Nutch-0.9
7、在D:\Soft\Tomcat60\webapps\nutch\zh\include下面新建header.jsp,把header.html文件中的内容粘贴过来,并在header.jsp最顶端添加以下内容:<%@ page contentType="text/html; charset=UTF-8" pageEncoding="UTF-8"%>,打开D:\Soft\Tomcat60\webapps\nutch\search.jsp文件,将<jsp:include page="<%= language + "/include/header.html"%>"/>此行中的header.html改成header.jsp,并将函数
queryfocus()中的代码注释掉
8、修改D:\Soft\Tomcat60\conf\server.xml文件,找到以下段并修改成
<Connector port="8088" protocol="HTTP/1.1" maxThreads="150" minSpareThreads="25" maxSpareThreads="75" enableLookups="false" redirectPort="8443" acceptCount="100" debug="0" connectionTimeout="20000" disableUploadTimeout="true" URIEncoding="UTF-8" useBodyEncodingForURI="true" />
9、重启Tomcat,浏览器中输入:http://localhost:8088/nutch/,输入你要搜索的内容,就可以看到搜索结果了。
补记:对于要抓取多个网站的页面,以前版本需要分多个步骤才能完成,0.9版本可以不需要那么繁琐了,可以在conf/crawl-urlfilter.txt文件里添加多条网站域名Filter,然后再在urls.txt里添加上对应的域名。命令行就和抓取一个网站的一样就行了;而且要启用hadoop多个Node进行分布式抓取,只需要在相关的配置文件里配置好各个Node的相关信息,Nutch就会自动分布运行了。
分享到:
相关推荐
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫
Windows下使用Eclipse配置Nutch2图文详解
windows下的nutch配置总结,doc格式的,chm格式是为了方便查看
nutch1.4 在windows下的安装配置环境搭建
windows7的环境下将nutch成功运行 整个安装图片教程: 1 cygwin的安装 2 apache-nutch的安装 3 nutch实例抓取实例
windows下nutch的安装配置以及与tomcat的集成.doc
本来有机会接个搜索引擎项目但最终因价格问题双方谈崩为此我感到深深遗憾失去了个极好实战机会但我不想因此放弃对搜索引擎学习和实战在网上听到很多人推荐Nutch所以我打算学习下Nutch要学习Nutch还是先从安装和使用...
详细介绍nutch在windows下myeclipse中的配置以及执行,本人空间还有nutch1.2包,nwgwin安装包等
nutch 在windows下环境搭配 已经如何在eclipse下配置,有配图,很详细
本来有机会接个搜索引擎项目但最终因...会但我不想因此放弃对搜索引擎学习和实战在网上听到很多人推荐Nutch所以我打算学习下Nutch要学习 Nutch还是先从安装和使用Nutch开始吧以下是我在xp sp2环境下安装Nutch过程记录
nutch 1.4 在windows下安装配置
这是本人在完全分布式环境下在Cent-OS中配置Nutch-1.1时的总结文档,但该文档适合所有Linux系统和目前各版本的nutch。 目 录 介绍 ............................................................... 2 0 集群...
Nutch1[1].4_windows下eclipse配置图文详解
北京邮电大学研究生课程实验指导书。 在windows上配置测试Nutch 用于学习nutch配置的各种问题 分为本地抓取,局域网抓取和互联网抓取三部分
nutch和cygwin在Windows系统上的配置.pdf
Nutch在windows开发中程序运行环境的配置,可用于Java环境开发
此外,MySQL支持多种操作系统,包括Windows、Linux、macOS、Solaris等,确保了其在不同环境下的兼容性和部署灵活性。 关系型模型与SQL支持 MySQL基于关系型数据库模型,数据以表格形式组织,并通过预定义的键(如...
1、 hadoop官方网站,首页会有最新动态。 2、 Nutch ->谷歌GFS论文->doug 根据GFS设计了NDFS、06年启动hadoop项目。...操作系统 Linux 、WINDOWS-Cygwin、hadoop-for-windows JDK支持 下载jdk,解压jdk,配置环境变量