教程介绍
因为小编看到很多站长还都不会写采集规则,而且采集对于我们新手站长来说可以节约很长一部分时间,完全不需要人工手动更新资源,相信你看了此教程也能学会如何去使用火车头采集器去采集各种资源!
采集器推荐
个人比较推荐使用“火车头采集”,火车头相对新手来说应该是比较好用的,而且火车头破解版也有很多,破解版下载:
教程示范
①:打开火车头采集器(这里使用的是7.6破解版)--如下图

②:打开你要采集的网站---(本次测试的网站为“新手站长网”,就以本站为采集目标来演示采集)
- 我们打开网站后选择需要采集的目录(比如我们先采集 [商业模板] 目录)
- 然后我们打开目录页的第二页,可以得到网址:https://www.vvtio.com/ymck/symb/page/2
- 由此我们可以得知目录第一页的网址为:https://www.vvtio.com/ymck/symb/page/1
- 得到网址规则后我们就可以打开火车头
火车头创建分组
- 点击火车头右上角【新建】-【分组】
- 所属分组:【根节点[id=0]】
- 分组名称:【新手站长网】
- 点击保存
火车头新建任务
- 选择【新手站长网】分组,鼠标单击右键-新建任务
- 各项参数请按照下方截图填写(每张截图我都会注释说明)
----->任务名填写【新手站长网】
---->在[起始网址]模块点击【添加】按钮- ①:点击【批量/多页】
- ②:[地址格式]处填写我们刚刚获取到的目录地址,页码数使用通配符代替(*)
- ③:[等差数列]首项填写1(说明在第一页开始),项数填写5(说明采集到第五页)
- ④:点击【添加】
- ⑤:点击【完成】
- 多级网址获取模块点击【添加】
- 那么如何获取正确的网站文章页并正确填写呢?
获取网站文章页
①第一步先随便打开一篇文章看一下网址
那么我们可以获取到的文章页格式为:www.vvtio.com/xxx.html
让我们回到火车头去填写参数
数码页更换成通配符(*);然后点击保存
测试网址采集
让我们来测试一下是否配置正确
点击【测试网址采集】
在下面这里我们可以看到已经获取到了75篇文章
测试采集列表页已经ok了,下面开始配置文章采集规则
文章采集规则
①:点击【采集内容规则】
②:在【典型页面】输入一篇文章
随便一篇即可--->点击测试
②:在【典型页面】输入一篇文章
随便一篇即可--->点击测试
在上图我们可以看到已经可以采集到内容
内容采集标签规则
在左侧【页面内容标签定义】模块处把没用得标签给删除掉
接下来我们来采集标题
鼠标双击[标题]标签会得到下面得界面
然后让我们打开示范页面,键盘输入Ctrl+u,获取到源代码
在这里我们可以看到标题是标签内,这样我们就获取到了标题内容,接下来让我们回到火车头填写规则
但是这里我们采集到的标题后缀会带有 “ - 新手站长网” 这串字符,我们需要把这个字符去掉。
在【数据处理】处点击[添加]----内容替换
将“-新手站长网”替换为空(什么也不写)
填写后我们再来测试一下采集典范页面
可以看到标题毫无杂质得采集出来了!
文章页内容标签采集
接下来我们设置内容标签采集规则,还是重复刚才的步骤,找到文章内容div是在哪开始的
首先审查元素找到起始代码
付费隐藏内容
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。