Eclipse下如何配置Heritrix
的有关信息介绍如下:Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。我认为其配置过程相当复杂,必须一步一步的来;也许会犯错,但不会总是犯错。下面讲讲如何在eclipse下配置Heritrix。
在eclipse下创建java project,命名为比如heritrix,进入其工程的目录,我的是F:\win1安装包\workspace\Heritrix。
复制解压后的heritrix-1.14.1.zip文件夹下的lib,webapps到F:\win1安装包\workspace\Heritrix目录下;复制解压后的heritrix-1.14.1.src 文件夹下的heritrix-1.14.1\src\java下的org和st两个文件夹到F:\win1安装包\workspace\Heritrix\src目录下
修改src\heritrix.properties文件中的(第19行)heritrix.cmdline.admin = 为 heritrix.cmdline.admin = admin:admin。
把lib下的jar包全部添加到工程中(刷新一下就行),即点击heritrix工程,右键属性---java build path---libraries--- add jars选择heritrix工程下lib所有jar。
运行org.archive.crawler.Heritrix类,在地址栏输入http://127.0.0.1:8080/
在heritrix中新建一个job(有四种方式),就可以抓取网页了。