酷酷问答>百科问答>9SiR火车头采集器教程：[1]怎样写采集规则

9SiR火车头采集器教程：[1]怎样写采集规则

2024-09-07 15:40:12 编辑：zane 浏览量：624次

9SiR火车头采集器教程：[1]怎样写采集规则

的有关信息介绍如下：

火车头采集器是一款非常不错的数据采集软件，也是互联网上最流行的采集工具，但是使用相对比较专业，很多火车头采集器新手感到无从下手，今天教新手朋友们如何快速使用火车采集数据。

首先讲一讲网站结构，通常网站结构为树形结构，一个网站主要包以下几种页面：首页、栏目页、文章页，其结构如下图。

其次讲一讲火车头采集原理，火车头的运行需要一套规则来指定该如何采集所需数据，即需要编写火车头采集规则，编写采集规则也是新手最头痛的问题。

火车头采集器通常通过网址抓取网站返回的源代码，然后在源代码中提取需要的信息。因此，采集数据需要先采集网址，然后再采集数据。

下面开始编写采集规则：

运行LocoyPlatform.exe

在左侧“任务列表树”选择一个分组点击右键，选择“新建任务”弹出新建任务对话框。填写任务名，网站编码一般选择自动即可。

添加起始网址

填写“第一步：采集网址规则”这里需要按照网站的树形结构逐级获取下一级结构的网址，直至获取到内容页的网址。先填写起始网址，通常为目标站首页地址。点击“添加”，在单条网址处填上火车头博客的首页地址，然后依次点击“添加” ->“完成”。

编写“多级网址获取”规则

这里需要先在起始地址页面找到所有需要采集的栏目页的代码区域，先查看起始页地址的源码，找到如图所示代码区域：

点击右侧“添加”按钮打开“添加多级网址采集规则”，选择“从页面自动分析得到地址链接”单选按钮，在下面“从该选定区域中提取网址”，“从”（左侧）文本框填上栏目地址代码区域开始之前的标志性代码（要保证其在该页的唯一性），“到”右侧文本框填上栏目地址代码区域结束之后的标志性代码，在“结果网址过滤”的“必须包含”和“不得包含”文本框填上相应代码，如果该区域没有多余的链接不需要过滤，可以不填，这里的栏目页网址必须包含“category-”。然后点击“保存”返回。

现在需要获取内容页的地址。先打开栏目页查看源码，查找内容页地址存在的区域及地址规律。按照上一步的方法先填写内容页所在区域的起始和结束标志性代码，然后分析这个区域中包含的链接与我们说需要的内容页地址链接规律，添加过滤代码。这里起始代码为“”，结束代码为“

”过滤代码为必须包含“read-”不得包含“#”。如图：

需要注意的是这里文章比较多会有很多分页，所以需要填写“列表分页获取”规则。通常只需要指定分页代码的区域，如有必要可以填写“组合生成列表页分页”规则。这里的列表分页规则其实代码为“

”，结束代码为“title="下一页">”。如果勾选“自动识别分页”的话，会自动提取a标签的href属性，如果不勾选自动识别的话，需要填写组合生成列表页分页”规则。

然后保存返回，可以通过“测试网址采集”来测试规则是否正确，不正确可以返回修改规则，正确的话可以开始编写“第二步采集内容规则”。

编写“第二步采集内容规则”

先打开内容页以及内容页的源码，找到需要提取的信息的前后代码特征。以提取标题和内容为例。首先复制文章标题，然后在源码中查看该标题出现的几处地方，找一处前后代码在每一篇文章都一样的地方，该例共出现了3处，第二处的代码没有其他干扰代码。点击“添加”，标签名填“标题”，提取数据方式选择前后截取，前后代码分别为“