采集分页的文章会重复采集两次,一篇文章出现两个重复内容!
secer 发地址。
admin 官方安装包给测试用的分页采集就是
secer
我看了。类似下面这种网址。 http://www.aitaotu.com/mxtp/dlmx/27179_2.html# http://www.aitaotu.com/mxtp/dlmx/27179_2.html 都是同一个页面,但是有两个地址,这种导致了重复。 你需要写规则过滤掉第二个。比如设置网址包含字符串 # 就过滤掉。就行了