Warning: Use of undefined constant ph - assumed 'ph' (this will throw an Error in a future version of PHP) in /www/wwwroot/www.olxdwon.com/wp-content/themes/jizhi-chlid/header.php on line 1
wordpress程序ctspaider自动采集插件-旗鱼小站
最新公告
  • 欢迎您光临旗鱼小站,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入我们
  • wordpress程序ctspaider自动采集插件

    首先说下这个采集插件有啥用,相信不少朋友用wordpress做博客,写博文更新嫌弃太慢,那么你可以用这个插件,花个半天配置好,以后就不用操心了,采集一下几百篇文章来了〔做原创的博主可以略过〕
    使用教程:如何安装
    首先去长腿蜘蛛-CTspider官网下载插件
    然后到WordPress插件页面点击上传,安装启用即可。
    如果使用FTP上传,请使用二进制上传协议。
    如何授权
    登录长腿蜘蛛-CTspider官网注册账号(PS:注册账号需要邮箱验证激活码,请认真填写邮箱账号)。
    点击用户中心->添加授权域名(PS:目前每位用户可以授权3个域名)。
    得到授权码后,点击CTspider插件->系统配置->授权码配置->填入授权码->保存配置->验证授权
    最近有很多网友问:为什么点击采集后显示没有任何数据只有两种可能
    采集规则没有设置好。
    如果确定采集规则没问题,请查看当前采集的网址是否是Ajax动态渲染加载(PS:目前长腿蜘蛛-CTspider 不支持动态渲染加载采集)
    新建项目 / 基本配置
    接下来我们详细说下如何采集一个项目
    我们使用新浪科技为示例:
    首先基本配置
    任务名称:新浪科技(PS:自定义即可)
    更新时间:默认60分钟(PS:当前任务60分钟自动执行一次)
    字符集:默认选项就可以(PS:如果出现乱码情况,请针对当前web网页字符集选择即可)
    随机IP:开启(PS:开启随机ip会在每次采集的时候自动更换IP,减少服务器IP被封的几率)
    多线程采集:开启 (PS:开启后可提高采集速度)
    多线程数量:默认10(PS:根据自己服务器配置酌情使用)
    列表设置
    列表URL: http://roll.tech.sina.com.cn/internet_all/index.shtml (PS:如需多个,可换行添加)
    列表区域选择器:.contList>ul>li (PS:【完全和CSS选择器用法一样】【可填,可不填】如果采集当前页面有多个相同列表DOM节点就要填写,确保采集精准度)用谷歌浏览器右键审查元素,可以看出当前列表数据都在.contList>ul>li下面
    列表缩略图:如果有图可以直接填写当前缩略图CSS选择器
    文章网址匹配:a (PS:由于上面区域选择器已经定位,我们可以直接填入a标签即可,如果区域选择器没有定位则设置:.contList li a 或者.contList a 具体根据你采集页面dom结构自己分析)
    添加来源网址到自定义字段:source_url(PS:【自定义】可开启或不开启,设置后会在每天文章添加一个自定义字段source_url并且会把当前采集到网址链接赋值给该字段用于前台调用显示)如: get_post_meta(‘source_url’) 可调用该字段的值。
    点击列表测试可以查看当前项目列表配置情况
    标题匹配规则:h1
    文章内容设置:#article_content
    可以看到标题在h1标签下,也可使用.main-title来获取标题
    正文内容看上去有好多 class和id 如果有id属性尽量采用id,毕竟id是唯一性,定位精准。
    我们还可以增加规则来采集TAG标签
    长腿蜘蛛-CTspider 提供了6总规则添加采集,并且可以自定义字段规则(PS:自定义字段规则可以添加多个)
    点击采集测试
    采集结果完美呈现(原文:标题:TAG)正确显示
    但是我们发现结果中出现了a链接和一些多于的css属性和id属性还有span标签
    我们可以利用长腿蜘蛛-CTspider强大的内容过滤模块进行数据清洗工作
    内容过滤
    首先删除数据中所有a链接但不删除a标签内容
    删除数据中span标签并且也不删除内容
    删除数据中无用的class属性和id属性
    最后在进行采集测试(得到纯净的数据)
    这个教程附图片的,可以参照官网教程:https://www.ctspider.com/course
    ——————-注意!——————–
    这个是官网,里面联系方式与我本人无关,这个插件完全免费!
    旗鱼小站.我们不生产资源,我们只是大资源的搬运工
    旗鱼小站 » wordpress程序ctspaider自动采集插件

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    提示下载完但解压或打开不了?
    最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或 联络我们。
    找不到素材资源介绍文章里的示例图片?
    对于PPT,KEY,Mockups,APP,网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。

    发表评论

    售后服务:

    • 售后服务范围 1、商业模板使用范围内问题免费咨询
      2、源码安装、模板安装(一般 ¥50-300)服务答疑仅限SVIP用户
      3、单价超过200元的模板免费一次安装,需提供服务器信息。
      付费增值服务 1、提供dedecms模板、WordPress主题、discuz模板优化等服务请详询在线客服
      2、承接 WordPress、DedeCMS、Discuz 等系统建站、仿站、开发、定制等服务
      3、服务器环境配置(一般 ¥50-300)
      4、网站中毒处理(需额外付费,500元/次/质保三个月)
      售后服务时间 周一至周日(法定节假日除外) 9:00-23:00
      免责声明 本站所提供的模板(主题/插件)等资源仅供学习交流,若使用商业用途,请购买正版授权,否则产生的一切后果将由下载用户自行承担,有部分资源为网上收集或仿制而来,若模板侵犯了您的合法权益,请来信通知我们(Email: 1262500034@qq.com),我们会及时删除,给您带来的不便,我们深表歉意!

    Hi, 如果你对这款模板有疑问,可以跟我联系哦!

    联系作者
    • 1956会员总数(位)
    • 2220资源总数(个)
    • 0本周发布(个)
    • 0 今日发布(个)
    • 411稳定运行(天)

    提供最优质的资源集合

    免费资源 精品源码