所谓ajax请求,就是源码里面没有对应的html数据,都是靠js加载的。
比如这个地址 http://www.toutiao.com/c/user/5803790269/#mid=5937891416
你用浏览器查看的时候,会发现链接就在里面。然后你写规则获取列表。却发现什么都获取不到。问题在哪呢?
如果你直接查看网页源代码,会发现源代码里面根本没文章列表。
这种情况下,就需要看浏览器从哪请求的列表数据了。
#1、下载一个谷歌浏览器,右键,选择“检查”,切换到network面板,如下图:

2、然后刷新网页,你会看到浏览器在请求ajax数据。
如下图:

因为有时候有可能加载了上百个请求,这样找会很累。所以上方有个过滤的,一般从XHR开始看。如果XHR找不到,再从ALL里面一个一个找。

然后我们找到了这个 地址:
http://www.toutiao.com/c/user/article/?page_type=1&user_id=5803790269&max_behot_time=0&count=20&as=A16509C1D1384CD&cp=59114844FC7D8E1
发现文章列表数据都是从里面提取出来的,使用字符串方式可以提取json里面的字段数据。
详细教程可以看这里:http://bbs.dxcer.com/d/226-dxc