以前写过一篇关于微信的采集,不适用了。因为百度搜索“微信采集”,排名还挺靠前的,误导了许多朋友。
现在补一下。
首先,采集微信有两个渠道。
第一个:官方微信的移动端、pc端接口,抓包。这个试过了,不稳定,接口地址都带时间戳,有时间限制,你不可能每次失效就去抓包。就算行得通,太麻烦太费劲了。
第二个:搜狗。。。这个虽然后来官方做了很多防采集,带来很多不方便,但是唯一可以利用的就是他了。
从哪里采集?
我们通过搜狗,搜索我们需要采集的微信公众号:http://weixin.sogou.com/weixin?type=1&query=weixinbiaoqing&ie=utf8&sug=n&sug_type=
如图:
![image http://bbs.dxcer.com/assets/images/1-Y3cLDyFBiLAUPwrB.jpeg](http://bbs.dxcer.com/assets/images/1-Y3cLDyFBiLAUPwrB.jpeg)
从公众号列表点击,我们进入微信公众号的文章列表,这个过程第一次可能会让你输入验证码。虽然仅显示最近10条群发。但是我们可以使用软件定期来抓取。
![image http://bbs.dxcer.com/assets/images/1-Pk2aQuMb1rOmvmbX.jpeg](http://bbs.dxcer.com/assets/images/1-Pk2aQuMb1rOmvmbX.jpeg)
弄清楚了流程了,现在设置软件如何抓取。
怎么采?
1、设置起始地址
起始地址填这个 http://weixin.sogou.com/weixin?type=1&query=weixinbiaoqing&ie=utf8&sug=n&sug_type=
从这里入口
![image http://bbs.dxcer.com/assets/images/1-kmCnBvahMNmjfhTX.jpeg](http://bbs.dxcer.com/assets/images/1-kmCnBvahMNmjfhTX.jpeg)
我们需要两层列表:
2、公众号列表获取
规则:
p
a[uigs="account_name_0"]
account_name_0是获取第一个的意思。因为有时候你搜一个公众号,可能出来三个,你必须指定要第一个。
如图:
![image http://bbs.dxcer.com/assets/images/1-jvoeKHIeBawaWNXc.png](http://bbs.dxcer.com/assets/images/1-jvoeKHIeBawaWNXc.png)
3、获取文章列表
文章列表得从源码里面分析,看图:
![image http://bbs.dxcer.com/assets/images/1-1NFXZR0JEi223rlK.jpeg](http://bbs.dxcer.com/assets/images/1-1NFXZR0JEi223rlK.jpeg)
眼神不好还真找不到。
规则,字符串方式:
"content_url":"[data]",
如图:
![image http://bbs.dxcer.com/assets/images/1-47odhuU3jMitryfS.png](http://bbs.dxcer.com/assets/images/1-47odhuU3jMitryfS.png)
4、获取文章标题、内容
标题规则:
h2.rich_media_title
![image http://bbs.dxcer.com/assets/images/1-XuAiNZxFKj551DSo.jpeg](http://bbs.dxcer.com/assets/images/1-XuAiNZxFKj551DSo.jpeg)
内容规则:
div#js_content
![image http://bbs.dxcer.com/assets/images/1-cVI1SiFoIzaslojn.jpeg](http://bbs.dxcer.com/assets/images/1-cVI1SiFoIzaslojn.jpeg)
你可能注意到了,图片没有。
这是因为图片路径不在src属性里面。
![image http://bbs.dxcer.com/assets/images/1-aApQ4QYd0JmRIkQE.jpeg](http://bbs.dxcer.com/assets/images/1-aApQ4QYd0JmRIkQE.jpeg)
这个就是懒加载。不过软件设置采集懒加载的图片很简单。如下图,在“内容”字段的“高级设置”--“懒加载图片设置”里面添加这个
data-src
![image http://bbs.dxcer.com/assets/images/1-817hVhMrUaWkqL1p.png](http://bbs.dxcer.com/assets/images/1-817hVhMrUaWkqL1p.png)
设置好之后,就可以刷刷刷采集了,看下图:
![image http://bbs.dxcer.com/assets/images/1-CfraUstubzlJlHcS.png](http://bbs.dxcer.com/assets/images/1-CfraUstubzlJlHcS.png)
看看采集到的数据:
![image http://bbs.dxcer.com/assets/images/1-gnJE765NmZRPYTQK.jpeg](http://bbs.dxcer.com/assets/images/1-gnJE765NmZRPYTQK.jpeg)
图片显示防盗链,不过没关系,因为预览的时候,图片路径还是外链,发布之后,图片就变成本地图片了,就不会出现这样了。
发布到discuz的效果如下:
![image http://bbs.dxcer.com/assets/images/1-xMTAK3YWAeViQbsh.png](http://bbs.dxcer.com/assets/images/1-xMTAK3YWAeViQbsh.png)
可以看到,图片又正常显示了。内容也完好无损。简直完美。
最后附上规则:
http://ww1.dxcer.com/weixin.dxc