CTspider(长腿蜘蛛)v2.3更新发布 查看更新日志 2018/09/27

长腿蜘蛛-CTspider采集 详细教程

2018-08-17 长腿蜘蛛-CTspider采集 详细教程

如何安装

首先去长腿蜘蛛-CTspider官网下载插件

  1. 然后到WordPress插件页面点击上传,安装启用即可。
  2. 如果使用FTP上传,请使用二进制上传协议。

如何授权

登录长腿蜘蛛-CTspider官网注册账号(PS:注册账号需要邮箱验证激活码,请认真填写邮箱账号)。

  1. 点击用户中心->添加授权域名(PS:目前每位用户可以授权3个域名)。
  2. 得到授权码后,点击CTspider插件->系统配置->授权码配置->填入授权码->保存配置->验证授权

最近有很多网友问:为什么点击采集后显示没有任何数据只有两种可能

  1. 采集规则没有设置好。
  2. 如果确定采集规则没问题,请查看当前采集的网址是否是Ajax动态渲染加载(PS:目前长腿蜘蛛-CTspider 不支持动态渲染加载采集

新建项目 / 基本配置

接下来我们详细说下如何采集一个项目

我们使用新浪科技为示例:

首先基本配置

  1. 任务名称:新浪科技(PS:自定义即可)
  2. 更新时间:默认60分钟(PS:当前任务60分钟自动执行一次)
  3. 字符集:默认选项就可以(PS:如果出现乱码情况,请针对当前web网页字符集选择即可)
  4. 随机IP:开启(PS:开启随机IP会在每次采集的时候自动更换IP,减少服务器IP被封的几率)
  5. 多线程采集:开启 (PS:开启后可提高采集速度)
  6. 多线程数量:默认10(PS:根据自己服务器配置酌情使用)

列表设置

  • 列表URL: http://roll.tech.sina.com.cn/internet_all/index.shtml (PS:如需多个,可换行添加)
  • 列表区域选择器:.contList>ul>li (PS:【完全和CSS选择器用法一样】【可填,可不填】如果采集当前页面有多个相同列表DOM节点就要填写,确保采集精准度)用谷歌浏览器右键审查元素,可以看出当前列表数据都在.contList>ul>li下面

  • 列表缩略图:如果有图可以直接填写当前缩略图CSS选择器
  • 文章网址匹配:a (PS:由于上面区域选择器已经定位,我们可以直接填入a标签即可,如果区域选择器没有定位则设置:.contList li a 或者.contList a 具体根据你采集页面dom结构自己分析)
  • 添加来源网址到自定义字段:source_url(PS:【自定义】可开启或不开启,设置后会在每天文章添加一个自定义字段source_url并且会把当前采集到网址链接赋值给该字段用于前台调用显示)如: get_post_meta('source_url') 可调用该字段的值。

点击列表测试可以查看当前项目列表配置情况

文章设置

标题匹配规则:h1

文章内容设置:#article_content

可以看到标题在h1标签下,也可使用.main-title来获取标题

正文内容看上去有好多 class和id 如果有id属性尽量采用id,毕竟id是唯一性,定位精准。

我们还可以增加规则来采集TAG标签

长腿蜘蛛-CTspider 提供了6总规则添加采集,并且可以自定义字段规则(PS:自定义字段规则可以添加多个)

点击采集测试

采集结果完美呈现(原文:标题:TAG)正确显示

但是我们发现结果中出现了a链接和一些多于的css属性id属性还有span标签

我们可以利用长腿蜘蛛-CTspider强大的内容过滤模块进行数据清洗工作

内容过滤

  1. 首先删除数据中所有a链接但不删除a标签内容
  2. 删除数据中span标签并且也不删除内容
  3. 删除数据中无用的class属性和id属性

具体设置如下图:

最后在进行采集测试(得到纯净的数据

 

 

 

发表评论 (62)

您必须 才能发表留言!


  1. aadmin 50楼

    我现在这个挺好用 可以自动更新: https://www.96flw.com/665.html

  2. jxct 49楼

    为什么安装插件 就装不上 jxctdz.com

  3. zuoxupeng 48楼

    我在列表测试这里就走不动了,一直显示错误“出现错误”,我是按照案例配置的,肯定没错,但是不知道为什么点击列表测试就是显示错误

    • alidoctor

      @zuoxupeng 我照抄官网例子,全提示:“出现错误”,又不说哪出现错误。。。。

    • 5114559

      @zuoxupeng 失败

    • 52ctzz

      @zuoxupeng 一样

  4. haoyu 47楼

    我也是半天没搞明白,有没有视频教程https://www.wanliancheng.cn

    • xwj2020

      @haoyu 我也没看明白,没有自动识别采集的吗,还要自己配置太麻烦了http://www.chongwutan.com/

  5. buy360 46楼

    我也是没搞懂 配置好难搞 看不懂http://www.aliyunmb.cn/

  6. laifang21 45楼

    可惜没有计划定时发布功能

  7. laifang21 44楼

    作者不知道怎么回事?好可惜,没有更新了

  8. asy666 43楼

    搞了半天 没弄明白 有视频教程吗 http://www.jyg789.com/

  9. 617390720 42楼

    不会配置!

  10. reallymygirl 41楼

    对于图片站不够友好,http://www.ttmtb.com

  11. 714236498@qq.com 40楼

    现在这个采集插件还能用吗?http://www.xypg999.com/

  12. q791967561 39楼

    好像不能自动更新,只能手动,而且不能只能采集一页的资源,怎么回事呢?

  13. weihuiguo 38楼

    楼主好,这个插件不能过滤没有特色图片的文章么

  14. shuining2008 37楼

    下载看看能不能用 https://www.hd5.cn

  15. zansheji 36楼

    有没有人啊,www.zansheji.cn,可以用吗

  16. smdk000 35楼

    很多网站都有反采集,或者反爬虫,能不能加入cookies啊,这样子能增加采集成功概率

  17. wknmbjin 34楼

    请问采集到的图片是直接保存到服务器还是引用原文的图片外链连接?https://www.lanren.pub

  18. jethin 33楼

    wordpress 5.4博客可以用吗?http://www.zxycall.com

  19. 1987109876 32楼

    一篇文章重复采集了两次,这个怎么解决呢?

    • super

      @1987109876 遇到同样的问题 你怎么解决的?

  20. 11299825@qq.com 31楼

    有没有大佬分享一下采集规则呀

  21. 11299825@qq.com 30楼

    为什么我网站采集不出来列表

  22. saving1986 29楼

    https://www.loowp.com/tutorial/seo 这种规则不知道怎么写,有没有大佬教我写的,可以有偿

    • Emeup

      @saving1986 QQ:3084268864

  23. mywb 28楼

    列表测试的时候,一样的网址,完全按教程还提示“没有获取 [标题] 请查看采集规则”

  24. emeshwork 27楼

    我的网站https://www.nceol.cn采集一些网站失效

  25. runsly 26楼

    授权码填进去验证失败

  26. dream1016 25楼

    授权码验证失败吖….

  27. zhangdapeng 24楼

    我的网站是最新的5.3.2 http://www.taozifuli.com 也可以用的么?

  28. lina 23楼

    请问为什么列表测试“出现错误”,已经授权成功,如何查看列表测试错误原因?

  29. niejingyao 22楼

    我的网站也可以用吗?http://www.tbxue8.com/

  30. huang295520529 21楼

    上传的文件尺寸超过php.ini中定义的upload_max_filesize值。这是几个意思啊 上传不了 体验的资格都木有

  31. 775417014 20楼

    能代写规则的联系我,可以付费 QQ775417014
    采集地址https://www.justeasy.cn/works/search-0-0-775-1.html

  32. zhizhu 19楼

    希望添加通配符规则

  33. 235576565 18楼

    用户中心在哪里

    • 2811885191

      @235576565 电脑访问才有,我也是。找了半天

  34. DavidSin 17楼

    可以改User agent 吗?

  35. 54893 16楼

    111

  36. baizimujun@gmail.com 15楼

    希望可以添加通配符规则

  37. baizimujun@gmail.com 14楼

    没有ID的文章class并不是这么的好用

    • lou1s

      @baizimujun@gmail.com 想请教下采集规则

  38. youzi 13楼

    没有检测是否已经采集过吗?如果没更新,还是会重复采集一遍?

  39. abcdyeah 12楼

    无法采集正文中的图片,被过滤了。。。

    • abcdyeah

      @abcdyeah HTML特例标签已经填写img,正文里还是没有。另外对于懒加载(延迟加载)的图片,列表页可以设置属性值获取,文章页不好设置,无法获取懒加载的图片

  40. Mrseawood 11楼

    请问下 文章分页规则 怎么写呢 试了 css 容器 不过不行 应该是我找的不对

    • lou1s

      @Mrseawood 已经解决了吗?

  41. bxsns 10楼

    不支持改变文章类型的主题
    http://bxsns.com

  42. jiangxiao1q2w3 9楼

    http://www.yeziyl.com 更新到WordPress 5.0.2能用吗?

  43. zita 8楼

    更新版后都无法正常使用了,授权不断失败,启动没资料 ==”
    想念旧版

  44. ray 7楼

    域名没备案 用的https 授权失败

  45. zhengxu110sc 6楼
  46. zhengxu110sc 5楼

    http://www.0816wo.com ,绵阳窝也用的是这个插件,好用。

  47. sakura 4楼

    http://www.yinghua.ml 用的就是长腿蜘蛛哦

  48. lxf1027 3楼

    插件上传上去了,启动不了

  49. lbsomuch 2楼

    請問為何一直認證失敗

    • YKK

      @lbsomuch 需要先点击保存

  50. 1427285560 1楼

    现在没有伪原创功能了吗

    • 官方

      @1427285560 目前你可以使用关键字替换