三人网赚博客

本站文章大多是采集的微信公众号,分享下我是如何稳定采集微信公众号文章

三人网赚 2019-09-19 08:55:22 收藏文章 无标签 1777 0

三人网赚是一个内容聚合的网赚内容平台,目的是为广大网赚爱好者,以及网赚网站站长们, 提供最全面丰富的网赚资讯。

网赚爱好者可以在平台学习到最广范的网赚技术与经验。

同时,网赚站长们可以在平台发现最新的网赚资讯,以便找到灵感,在此基础上结合自身的经验,写出自己原创的网赚项目文章到自己的网站上。

所以,对于文章采集源,我们大多是采集公众号的文章,部分是采集几个比较不错的博客,自己写的占少数。

为什么选择采集微信公众号的文章?

1、原创度高,减小我排重的时间

2、互动性强,多数文章内容偏向于与读者互动。不比纯资讯站,发表后不互动

3、版面整洁,很少采集到垃圾内容

4、模板固定,不像很多博主,经常换博客模板,导致采集规则失效

本站采集了100多个微信公众号的文章,多数公众号发布的频率不是很高,但是发布的文章却都是干货。所以,目前来说,一天能够采集到原创文章大约30~50篇左右。

看到有几个同学注册三人网赚,发私信过来,问我如何采集公众号的文章,简单的回复方法,大家也看不懂,所以干脆把我稳定采集公众号内容的方法分享出来,有需要的可以参考一下。

目前,网站采集频率为每70秒扫描一轮各公众号去发现的文章,每3分钟将发现的文章,发布到网站上。

先说一下原理:

在搜狗公众号搜索公众号名称(如:人民日报),在结果页找到公众号,并获取该网址(公众号主页,即文章列表页),访问该网址抓取文章列表(如果你不是采按公众号采集文章,而是按关键词采集相关的文章则无需访问公众号文章列表页),并对比本地数据库,将新文章写入本地数据库,再使用采集软件,发布到网站上

三人网赚刚建立时,采集公众号文章,是我第一次写公众号的规则,之前都是采集网站或博客,限制不是很多。采集公众号时,所以接连遇到多个问题。

我采集公众号文章遇到的问题及优化步骤

1、我用的是ET采集器免费版(免费版运行15分钟会自动停止,自制的脚本,ET停止会自动启动,所以能够24小时不间断运行)

2、采集前,参考官方的公众号采集思路(按搜索关键词结果采集),写的按公众号采集规则。

3、最开始我是直接将几十个公众号搜狗微信搜索结果页放到1个文本中,用ET采集器会轮流从这些页面抓取新新文章,因为数量多以及频率高,导致没运行多长时间,抓取不到新文章,软件上测试抓取源码,发现是要输入验证码,于是我在浏览器中登陆搜狗,使用搜狗搜索公众号,输入验证码,将COOKIE导入到ET中,同时,抓取频率变成每15秒抓取一次,没用多久,验证码依旧。15秒抓取一次,也就是说100个公众号,跑一遍就得1500秒,近半小时。这周期太长,而且后期可能还会增加更多的公众号,所以只能挂IP代理去抓取!!

4、et采集器无法使用多个ip轮番代理,所以,自己写个软件,并购买一些ip代理去抓取(没用远程打码的功能是想着彻底解决,即使打码,也可能要遇到未知的问题,比如ip被屏蔽,到最后还是靠代理),并将抓取到的文章写到本地文件wx-artlist.txt,et采集器改为从该文件中采集新文章,完美的解决搜狗访问受限问题。

5、每天大约花费10~20块购买这些IP,后来想着,能否这笔费用,于是,将自己手里现有的6台vps,又申请几个景安的免费空间,各放了个php文件,反向代理抓取,完美解决,成功省去这笔钱!

6、目前一天大约采集100~200篇文章(并非全部可用,有些内容不符),抓取文章内容与发布,仍然用的et采集器,所以本地采集目前没问题到问题(公众号主页不显示文章列表,不影响)

7、ET采集官方发布的采集规则,内容过滤不好使,自己优化了一下,把一些杂乱标签全部替换成了段落标签或换行符


目前为止,稳定采集近2个月

现在每天早上起床开始采集,晚上睡觉关电脑,期间,全自动采集发布到网站的文章回收站中,自己闲的时候,在回收站找到优质的文章手动审核发布到网站上。

有些同学可能会问,手动审核为什么还要采集,复制粘贴不就好了。

1、公众号图片无法外链,保存图片再上传,很费事,有些文章图片过多,可能5分钟就搞不定,采集这个时间是省掉了。

2、一个个打开去看哪个公众号的新文章适宜采集(从目前每天200个文章中选50个文章),也费时间,哪有列表直接显示新文章来得快!


目前软件也开始尝试采集搜狗微信搜索的“网赚”、“赚钱”等关键词的搜索结果,并抓取最近的文章。原理一样,大同小异。


先说这么多,如果你的公众号文章不错,想将你的公众号文章自动同步到三人网赚,可联系我们采集,当然如果你觉得本站采集你的公众号影响你们的访问,可联系停止采集你的公众号文章

网友点评

表情

  • 熙莲公:是
    回复
  • zhanghua91:6666666666666666
    回复
顶部