关关采集器采集规则编写教程
的有关信息介绍如下:关关采集器采集规则编写教程
在关关采集器Rules文件夹下建立一个xml文件。为了方便区分,今天给大家演示编写云谣阁的采集规则,我就把这个xml文件命名为yunyaoge.xml
点击规则--规则管理器 出现如图所示。点载入开始编写采集规则
下面说下需要填写的内容
左边这里点击之后在右边都会出现相关的说明。很简单的。
只需要记住几个关键就行了 下面给大家举例说明一下记住一下几个正则
.+?
((.|\n)+?)
\d*
今天给大家演示采集的网站是www.yunyaoge.com,我们就打开这个网站首页,然后在网页随意空白处点击右键,然后点查看源文件(或者是查看网页源代码浏览器不同,显示的不同,但是意思是一样的),这里我看可以看到 表示这个网页是gbk编码的。这里在这里让填写编码我们就写gbk就行了
同样的道理,下面的novelname novelauthor这些我们都直接正则匹配就行了。就拿novelname来说 我们打开网页http://www.yunyaoge.com/xs/0/88/点击查看源文件,找到作者那么我们这里直接写如图所示
一步一步的写完,那么接下来就是测试结果了。如果哪里有不对的地方,测试的时候会有提示。按照提示再修改就行了