熊猫采集器采集发布新闻教程
的有关信息介绍如下:这里以新闻采集和发布为例向大家介绍采集软件的使用。
点击软件上的新建项目(标准)
给项目取一个名字,名字可以随意,也可以不填,不填的话软件会自动生成一个名字。其他地方保留默认设置就可以了,然后点击下一步设置。
软件会直接跳过数据库设置,来到标题列表页及其翻页设置,标题列表页就是包含我们要采集的链接的网址。这地方我们以华声在线网站作为演示,随便选择一个新闻栏目,复制标题栏中的网址到软件的相应位置即可。
然后软件中点击开始进行预分析。
然后软件会询问是否需要自动分析翻页设置,这地方我们为了完整演示,我们选择否,手动设置翻页。这地方的翻页设置目的是要告诉软件当本页面采集完了怎么跳到下一页进行采集。
选择翻页方式1:直接指定翻页的链接,在这种模式下,我们只需要在软件的左边找到下一页的链接并点击就可以了,然后填上我们一共需要采集多少页,这地方我们填了5,就表示要采集5页,然后点击下一步设置。
这是我们设置的第四步,选择内容页,就是要告诉我们的软件,每个列表页里面哪些链接下的内容使我们需要采集的内容,一般情况下软件软件会自动判断,并把入选的链接用红框框选。如果不是我们要采集的链接我们可以手动调整。显然我们这里软件默认判断是正确的,保持原样,直接点击下一步设置。
来到内容页面模板管理,这里有两种方式,自定义模板和系统自动分析,如果是选择方式二由系统自动分析抽取网页的标题和正文,那我们的整个配置就到此完成,点击确定即可。
点击立即运行该项目,试着采集一下。
这里为了演示,我们再使用方式一使用自定义模板来设置一下。双击项目名称打开刚才的项目,选择内容页面模板管理,方式一使用自定义模板,点击添加新模板。
点击开始分析,然后软件会询问你是否需要软件自动分析,这里为了演示,我们选择否,然后会出来像下图中的界面,右边页面中的内容会经分析后显示在左边,我们只需要针对左边的内容设置采集就可以了。
在左边找到和右边新闻标题相同的内容,点击一下,右边会用红框框选,以便确认我们选择的位置是否正确。然后选择采集该项,选择采集存储表—>标题,标题的采集就完成了,下面是正文的采集。
和标题一样,首先在左边找到正文的开始部分,设置采集,如下图所示。但由于正文一般比较长,一次无法全部选择完整,我们还需要对正文的尾部再设置一下采集。
同样的在左边找到新闻正文的尾部,再次采集,注意这地方的字段要和采集新闻开头的保持一致,这样软件就会明白你是要采集从开头到结尾整个的内容。
这时软件会询问你是否把整个文字当做一个整体来采集,选择是,会发现整个新闻会被框选中。
一路点击确定完成设置,然后运行一下,看看采集的效果是否达到自己的要求。
运行效果