其实我都打了...是影视跟商品的采集需求。
1.多层次采集处理是只针对上一层参数延用至下一层参数。
例如三级抓到个值分类代码123,能在第四级代码111的图片URL中部分替换进去。
上一级抓到分类跟标籤代码,然后合併成图片,还要补0操作,捕的0还不一样。
范例: http://bbs.dxcer.com/0123/123/123-00111-L.jpg
http://bbs.dxcer.com/1456/1456/1456-09411-L.jpg
还有数据处理,有些商品图片网址无法读取,
所以要用多级替换整合成真实图片网址。
2.再来我确实用到URL Decode或HTML Decode
有些网站内文包含的<a>网址原本编码就故意需要Decode这样所以需要转换,有时中文编码也是。
我是不知道DXC有没有自动修改....
范例:http%3a%2f%2fbbs.dxcer.com%2fd%2f99-dxc%2f4%2f%e6%b5%8b%e8%af%95
还有些地方还有需要把网址转成base64格式,因为有需求入库时不入库包含符号的网址。
3.有些图片放在iframe中,iframe网址包含是随机数,要抓裡面的iframe的特定图片。
但DXC只能一级一级採集,不能多级内容合一,尤其下一级还是iframe。
4.有些要1个页面多个采集再生成多笔数据入库,所以需要循环分隔,达成1页采集整个分页大纲发布成30笔,而不用跑30个页面,降低个别采集压力。
标题1|价格1|网址1|图片1|简介1©标题2|价格2|网址2|图片2|简介2©标…
这样然后用阵列方式发布减少发布压力,火车头有循环分隔的选项,但DXC就不容易达成…
5.有些分页从html socuse无从抓起,用上类似script做分页。
以下是分页代码就直接这样
document.write('<div class="agination"'+ showStyle +'>第 <b class="product_num">'+PageTotal +'</b> 条 / 第 '+ PageStartNum +' - '+ PageEndNum +' 条 <span id="productUp"></span></div>');
这部分抓不到所以我想不出解决所以只能用组合参数组成下一级分页,但DXC没办法组合参数再採集。
6."在网址中採集功能",像是有些文字为了防採集存放成txt之类,对网址做二次採集,读取后再与其他内容一起入库。
7.缺省值是因为有些价格有分原价跟特价还有很多其他项目,他是存放在script且参数不固定,有时完全很难捕捉,有时只能用抓特定关键字后下个script第一行的数值,就能用缺省值做判断。
简单说我是用缺省值跟多个参数重複利用做if判断,后来的商业版火车头有直接能if,但我想DXC两个方式都没办法。
基本上还有很多,我先打这些...第一篇我说的那些功能都是我正在採集时必需的我才说。
用火车头可以很容易解决,但改成DXC会十分困难,
而且说真的我觉得DXC也不会因为我这少部分人去设计这些火车头才有的功能对吧!