发现变成DXC桌面化了其实我觉得有点失望。

This site is best viewed in a modern browser with JavaScript enabled.

发现变成DXC桌面化了其实我觉得有点失望。

c1x259

就易学性上来，DXC应该是可以在众多採集的排上前三。
但这是却丢失了网页的便利性，变成要另用桌面端，无法跟网站服务器一体结合。

当然这也不能说是不好，毕竟网页方式有它的侷限在。

但DXC桌面后功能上来说，很多像是火车头的功能都没有，像是个别区域性採集然后过滤，
也没有火车头的数据处理众多功能，也不支持循环分割符号，处理URL编排也变得困难，数据处理也不支持替换[参数N]，很多变成要正则DOM获取，也没有转换URL Decode或HTML Decode，分词/缺省值。
要做出多层次採集处理变得很困难。列表页后也没办法用标籤互相支援。

发布接口设计也过于简单。

感觉上很多部分沿用了网页时期的作法，但改成桌面模式，但却没有跟上桌面端多样性功能。
我研究了一下，最后放弃了，很多功能缺乏也无法从火车头移植DXC桌面版本，

建议DXC能先师从其他採集软体，再走出一条路。

admin

c1x259 我觉得你可能没明白桌面版的优势。

1、首先你说跟服务器一体的问题。这个以后会出linux版本的，安装在服务器，就可以使用网页远程控制。桌面版更加接近底层，运行效率是php这种语言无法企及的。也不用过多考虑服务器的环境。比如之前运行在服务器，又要考虑什么最大内存限制啊，有些函数又没开启什么的。

2、你说很多功能没有什么的。目前多层列表什么的都可以采集的。基本上火车头可以采集的，DXC采集都可以。只是你是否发现这些功能如何使用。界面尽可能设计得很简洁，但简洁不代表简单。

当然了，有些功能，是故意没加进去。比如什么伪原创什么的，这些坚决不加。
这些功能可能少部分用户会用到，但是大部分都不需要。增加了软件的复杂性。软件并非功能越多越好。这方面保持了足够的克制。火车头这类的缺陷就是过于繁琐。

3、发布接口过于简单？你说说哪些功能你需要，但目前没有的？从目前用户的反馈来看，功能已经足够用。

admin

c1x259 也不支持循环分割符号，处理URL编排也变得困难，数据处理也不支持替换[参数N]，很多变成要正则DOM获取，也没有转换URL Decode或HTML Decode，分词/缺省值

只是软件的方式不一样。有些我们通过其他方式处理的，比如有些程序自动处理，没必要有这些功能

c1x259

了解，看来原因出在我的採集需求比较複杂用了一堆"少部分用户会用到"的功能...

admin

c1x259 你可以举例说说哪些你需要的功能没有？

c1x259

其实我都打了...是影视跟商品的采集需求。

1.多层次采集处理是只针对上一层参数延用至下一层参数。
例如三级抓到个值分类代码123，能在第四级代码111的图片URL中部分替换进去。

上一级抓到分类跟标籤代码，然后合併成图片，还要补0操作，捕的0还不一样。
范例: http://bbs.dxcer.com/0123/123/123-00111-L.jpg
http://bbs.dxcer.com/1456/1456/1456-09411-L.jpg

还有数据处理，有些商品图片网址无法读取，
所以要用多级替换整合成真实图片网址。

2.再来我确实用到URL Decode或HTML Decode
有些网站内文包含的<a>网址原本编码就故意需要Decode这样所以需要转换，有时中文编码也是。
我是不知道DXC有没有自动修改....
范例:http%3a%2f%2fbbs.dxcer.com%2fd%2f99-dxc%2f4%2f%e6%b5%8b%e8%af%95

还有些地方还有需要把网址转成base64格式，因为有需求入库时不入库包含符号的网址。

3.有些图片放在iframe中，iframe网址包含是随机数，要抓裡面的iframe的特定图片。
但DXC只能一级一级採集，不能多级内容合一，尤其下一级还是iframe。

4.有些要1个页面多个采集再生成多笔数据入库，所以需要循环分隔，达成1页采集整个分页大纲发布成30笔，而不用跑30个页面，降低个别采集压力。

标题1|价格1|网址1|图片1|简介1©标题2|价格2|网址2|图片2|简介2©标…

这样然后用阵列方式发布减少发布压力，火车头有循环分隔的选项，但DXC就不容易达成…

5.有些分页从html socuse无从抓起，用上类似script做分页。
以下是分页代码就直接这样
document.write('<div class="agination"'+ showStyle +'>第 <b class="product_num">'+PageTotal +'</b> 条 / 第 '+ PageStartNum +' - '+ PageEndNum +' 条 <span id="productUp"></span></div>');

这部分抓不到所以我想不出解决所以只能用组合参数组成下一级分页，但DXC没办法组合参数再採集。

6."在网址中採集功能"，像是有些文字为了防採集存放成txt之类，对网址做二次採集，读取后再与其他内容一起入库。

7.缺省值是因为有些价格有分原价跟特价还有很多其他项目，他是存放在script且参数不固定，有时完全很难捕捉，有时只能用抓特定关键字后下个script第一行的数值，就能用缺省值做判断。
简单说我是用缺省值跟多个参数重複利用做if判断，后来的商业版火车头有直接能if，但我想DXC两个方式都没办法。

基本上还有很多，我先打这些...第一篇我说的那些功能都是我正在採集时必需的我才说。
用火车头可以很容易解决，但改成DXC会十分困难，

而且说真的我觉得DXC也不会因为我这少部分人去设计这些火车头才有的功能对吧!

admin

c1x259 你的帖子比较长，有时间再认真答复。

admin

认真看了，目前的采集器可以满足99%左右的采集需求。至于你上面所说的，都属于1%的类型。
加入这些功能的支持，可能让软件变得极为复杂。但是这些生僻的功能又只是1%的用户需要而已。

软件并不追求大而全，不可能所有用户都能满足。只要满足90%以上的用户，都算是成功的。

火车头就是追求大而全的例子，什么功能都有，谁需要啥，都加进去，大量功能堆砌进去，结果可想而知。

mufeng

我觉得那么复杂的功能，完全可以找个技术专门开发特定采集器了