隔壁老卢很久没有出来水帖子了,今天进来看了下,满活跃的,还看到某某通过我之前的视频给自己引流,引流技术666
今天给大伙出的帖子是今日头条的搜索采集改良版,目前官方采集器我测试了下,只能采集17条左右,无论云端和桌面都一样
为什么会只采集17条呢?
给大家看个截图

我目前在官方的基础上更改了有以下几项
1.数值删除 前面添加
比如:官方是这样http://www.toutiao.com/search_content/?offset=0&format=json&keyword=%E6%B0%B4%E5%88%A9&autoload=true&count=200&cur_tab=1
offset=0 count=200 还记得吗?官方说200是提取数值,就是帖子的数量,可问题来了,提取了200个
实际搜索只有18个
附带截图

所以上面的数值200是没用的,然后我试了下只保留原来链接的前半部分
http://www.toutiao.com/search_content/?offset=0&format=json&keyword=水利
惊奇的发现搜索出来和列表页竟然一样。然后我变换了offset=0的数值,开始开的小,用的十几,最后发现也没采集多少,然后我改到100,丫的,采集了100多篇,由此可见后面的不要只要前半截也是可以的
2、 第二个问题,我发现官方在用链接的时候替换了链接替换成http://www.toutiao.com/item/{1}
但是明显/item/不行,这是一个中转跳转链接,然后我继续找,在今日头条列表页部分发现
跳转地址是

但是我点进文章之后又发现了问题
在文章里面的链接竟然是a
我又替换成了a

由此可见,写规则不难,难得是细心!
第三个问题,是比较小点的,桌面版提取标题用dom竟然提取不到,用字符集就可以
内容页也是

好了,学会了么?隔壁老卢改良