当前位置:酷酷问答>百科知识>Eclipse下如何配置Heritrix

Eclipse下如何配置Heritrix

2024-11-30 13:50:12 编辑:zane 浏览量:544

Eclipse下如何配置Heritrix

的有关信息介绍如下:

Eclipse下如何配置Heritrix

Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。我认为其配置过程相当复杂,必须一步一步的来;也许会犯错,但不会总是犯错。下面讲讲如何在eclipse下配置Heritrix。

在eclipse下创建java project,命名为比如heritrix,进入其工程的目录,我的是F:\win1安装包\workspace\Heritrix。

复制解压后的heritrix-1.14.1.zip文件夹下的lib,webapps到F:\win1安装包\workspace\Heritrix目录下;复制解压后的heritrix-1.14.1.src 文件夹下的heritrix-1.14.1\src\java下的org和st两个文件夹到F:\win1安装包\workspace\Heritrix\src目录下

修改src\heritrix.properties文件中的(第19行)heritrix.cmdline.admin = 为 heritrix.cmdline.admin = admin:admin。

把lib下的jar包全部添加到工程中(刷新一下就行),即点击heritrix工程,右键属性---java build path---libraries--- add jars选择heritrix工程下lib所有jar。

运行org.archive.crawler.Heritrix类,在地址栏输入http://127.0.0.1:8080/

在heritrix中新建一个job(有四种方式),就可以抓取网页了。

版权声明:文章由 酷酷问答 整理收集,来源于互联网或者用户投稿,如有侵权,请联系我们,我们会立即处理。如转载请保留本文链接:https://www.kukuwd.com/article/146052.html
热门文章