帝国、PHPCMS及织梦对比(十一):采集功能

2011-10-08 17:27:55来源:chinaz作者:

提到采集,有些站长抛出鄙夷的眼神,而似乎大部分站长都会觉得是CMS的标配。在落叶看来采集只是一个功能,一个工具,关键看是采什么,采来后做什么,怎么处理采来的内容。大家都知道火车头,一般基本用来采文章,但

提到采集,有些站长抛出鄙夷的眼神,而似乎大部分站长都会觉得是CMS的标配。在落叶看来采集只是一个功能,一个工具,关键看是采什么,采来后做什么,怎么处理采来的内容。大家都知道火车头,一般基本用来采文章,但落叶经常用来采集邮箱,CMS间导数据,基至都用来采过QQ号。火车头的整套流程即使对采集规则了解不多,也很方便来采文章,那么相较之于这种客户端软件,主流CMS中的采集模块,有哪些优缺点呢?

本文中落叶对PHPCMS、帝国CMS及DEDECMS的采集功能作些对比,同时也对采集流程细节作些需求分析。

我们知道,通常的采集流程都是通过列表页分页批量获取内容页网址,然后对内容页分析,获取内容标题、文章内容等信息,因为各目标站的结构不同,采集规则会不同,CMS不可能也不会提供通用的采集规则,那么要考量一款CMS采集模块是否好用基本是由整个采集任务设置流程的易用性、采集的稳定性与效率、采集完入库方便性等方面决定。

1.采集设置流程:

整体体验:

PHPCMS的任务添加流程中直接在TAB菜单的形式列出来网址采集、内容规则设置、高级设置三步骤,每一步中的结构都和火车头比较像,对火车头采集的比较熟悉用户会觉得PHPCMS的采集设置比较明了。DEDE中流程类似,只是没有直接将几步列出,后一步的设置的前提是前一步设置正确。帝国CMS 中则是希望用户一口吃饱,从上至下把需要的信息全部列出来。

其实整体都基本三步,没有太明显的区别是,只是三者表现方式的不同给用户的心理感受是不同的。PHPCMS简洁明了,让用户觉得采集很简单,三下两下就设置好了,新手愿意去尝试。帝国CMS中用户一进入采集设置界面顿感压力,页面一直下拖,这么多设置项,首先想到的是“算了,换别的采集”,“这么多填到什么时候,填完了能不能提交还是一回事”,而DEDECMS中把采集过程和设置流程整合起来,优点时可以保证每一步都设置正确,但对采集比较熟悉的用户而言,效率偏低,每次都得POST提交一次测试一次。

网址采集:

PHPCMS网址采集通过列表页分页通配符实现列表页网址批量添加,然后设置所需采集的网址区域,很多时候,对不熟悉HTML采集规则查找技巧的朋友可以通过直接设置“网址中必须包含”和“网址中不得包含”这两项来实现内容页网址的采集。DEDECMS也用*作分页通配符,不过DEDE中的优点在于可以启用多栏目通配规则,针对不同的栏目页批量设置采集规则,这样可以方便对有相同URL规则的多个栏目同时采集。帝国中则也只是一般的以为通配符的多分页获取,相对表现平平。

\

PHPCMS中提供通过填写COOKIES信息对需要登陆的网站的采集,不过只对深度用户有用,一般用不着,DEDECMS中则提供了防盗链模式的设置,通过填入目标站内容页地址,采集时伪造来源来达到破解简单防盗链采集的目的,这点还是挺不错的。帝国CMS对相对路径的处理提供了填写“内容页地址前辍”的字段,但其实本应该做到URL自动扩充补全的。

内容规则的设置:

内容页规则的设置一般是针对每个字段提供设置匹配规则,同时进行一些格式过滤和信息替换。对比三款CMS,PHPCMS中的字段设置更人性化些,很清晰的实现了匹配信息的提取、信息替换、格式过滤的功能,而DEDECMS和帝国CMS中都直接一个textarea给出,让用户填写正则内容,体验上稍差些。DEDECMS中也以弹出窗口的方式给出了常用格式的过滤的勾选框,直接勾选可以生成过滤规则,表现方式不够明显,不适合新手使用,帝国则似乎完全是针对正则高手的,而实际用帝国的新手用户居多,我很为帝国担心,“有人用他的采集功能么?”

\

2. 采集稳定性与效率:

采集效率受限于服务器本身及网络环境,各CMS在技术上的差异不大,而稳定性则处决于采集流程及出错处理。这块PHPCMS的优势很明显,支持多线程采集,并以进展条方式展示,在采集中断时可刷新界面断点续采,效率和稳定性个人觉得挺不错。对已采集过的网址记录方式也仿照火车头的方式进行记录,防止重复采集。

\

DEDE则仍体现在他的细致上,每一步做过很多细节提示,优点的可以清楚知道怎样操作,缺点是太多需要让我思考的地方,帝国CMS似乎对得重复采集未作判断,即使刷新或后退都存在得复采集的情况。

3. 采集完入库:

帝国CMS在采集设置流程中即设置好了所采集的信息所对应入库的栏目,采集过程字段设置也完全与栏目的字段匹配,PHPCMS在采集前设置好了对应的栏目,但各字段并没有绑定,在采集完进行发布时,可以重新选择字段的对应关系,并可对一些字段如关键词、摘要、缩略图、时间等在发布时自动使用函数处理后填充。DEDECMS中在采集时未绑定栏目,发布时选择栏目导入,比较方便,但不支持字段选择。总体,落叶个人还是偏向于PHPCMS的地导入方式。

赞助商链接: