Eclipse下运行启动Heritrix1.14.4

前面我们知道了如何通过执行Heritrix官方提供的jar包去启动Heritrix,庆幸的是,Heritrix是完全开源的,所以我们可以将Heritrix的源码直接导入Eclipse去运行它。

首先解压heritrix-1.14.4-src.zip到任意盘符,这里我直接解压到桌面,解压后你会看到如图的目录结构:
Eclipse下运行启动Heritrix1.14.4
 
src下毫无疑问是源码文件,libHeritrix依赖的jar包。Testdata文件夹里存放的是测试文件,可以忽略。

然后我们可以打开Eclipse,新建一个Java Project取名为heritrix1(名字随便取),如图:
Eclipse下运行启动Heritrix1.14.4
 
heritrix-1.14.4-src\src\java下的org,com,st3个目录copy到刚新建的Projectsrc下,
Eclipse下运行启动Heritrix1.14.4
 
源码复制进去后有很多代码报错,是因为我们还没有添加jar依赖,首先在project里新建一个folder取名lib用于存放依赖的第三方jar,如图:
Eclipse下运行启动Heritrix1.14.4
 
Eclipse下运行启动Heritrix1.14.4
 
heritrix-1.14.4\lib下的所有jar包全部copy到刚刚新建的lib下,如图:
Eclipse下运行启动Heritrix1.14.4
 
选中全部jar,然后add to build path,如图:
Eclipse下运行启动Heritrix1.14.4
 
然后新建一个source folder取名为conf(名字随便取,不一定要叫conf),如图:
Eclipse下运行启动Heritrix1.14.4
 
heritrix-1.14.4\src\conf下的所有文件及文件夹全部copy到新建的conf源码文件夹下,如图:
Eclipse下运行启动Heritrix1.14.4
 
Eclipse下运行启动Heritrix1.14.4
 
然后继续新建一个source folder 取名为resources,如图:
Eclipse下运行启动Heritrix1.14.4
 
然后resources下新建一个org. archive.util包,如图:
Eclipse下运行启动Heritrix1.14.4
 
Eclipse下运行启动Heritrix1.14.4
 
然后将heritrix-1.14.4\src\resources\org\archive\util下的tlds-alpha-by-domain.txt文件copy到刚刚新建的org.acchive.util包下,如图:
Eclipse下运行启动Heritrix1.14.4
 
然后将heritrix-1.14.4\src下的webapps整个目录复制到当前project的根目录下,如图:
Eclipse下运行启动Heritrix1.14.4
 
然后在eclipse中打开heritrix.properties配置文件,稍作修改,如图:
Eclipse下运行启动Heritrix1.14.4
 
这一切工作完成后,在Eclipse界面里按下ctrl + shift + T,然后查找Heritrix类,如图:
Eclipse下运行启动Heritrix1.14.4
 
然后你就可以鼠标右键Run as运行它来启动Heritrix啦,运行后如果你在控制台看到如图的提示信息,即表明Heritrix启动成功啦!
Eclipse下运行启动Heritrix1.14.4
 
然后你访问http://localhost:6789就可以访问HeritrixWeb后台啦!在Eclipse下运行启动Heritrix就介绍到这儿了。

ITeye不允许我贴我的QQ和群号,要联系我看之前的博客吧,不然ITeye又要封我博客啦,坑爹的ITeye!

转载:http://iamyida.iteye.com/blog/2239775