采集分页的文章会重复采集两次,一篇文章出现两个重复内容!
采集分页文章会重复两次循环
我看了。类似下面这种网址。
http://www.aitaotu.com/mxtp/dlmx/27179_2.html#
http://www.aitaotu.com/mxtp/dlmx/27179_2.html
都是同一个页面,但是有两个地址,这种导致了重复。
你需要写规则过滤掉第二个。比如设置网址包含字符串 # 就过滤掉。就行了
采集分页的文章会重复采集两次,一篇文章出现两个重复内容!
我看了。类似下面这种网址。
http://www.aitaotu.com/mxtp/dlmx/27179_2.html#
http://www.aitaotu.com/mxtp/dlmx/27179_2.html
都是同一个页面,但是有两个地址,这种导致了重复。
你需要写规则过滤掉第二个。比如设置网址包含字符串 # 就过滤掉。就行了