文章智能采集与正则采集模式
作者:辉创软件 来源:未知 浏览次数: 日期:2013-03-12 16:47
软件现有对文章采集分为智能范采集和正则精确采集2种模式。智能范采集虽然操作简单,但往往会采集到一些站内垃圾文章;正则采集模式虽然精准,但对正则表达式的要求较高。新版本综合考虑了操作和精确度需求,将原有的爬虫智能采集由范采集升级为栏目精确采集,用户只需要设置栏目编码页和文章前缀,即可很容易的采集到栏目下的文章。
 

软件现有对文章采集分为智能范采集和正则精确采集2种模式。智能范采集虽然操作简单,但往往会采集到一些站内垃圾文章;正则采集模式虽然精准,但对正则表达式的要求较高。新版本综合考虑了操作和精确度需求,将原有的爬虫智能采集由范采集升级为栏目精确采集,用户只需要设置栏目编码页和文章前缀,即可很容易的采集到栏目下的文章。

以新浪史话栏目为例说明如何智能采集栏目文章。(也可以参考视频里演示的是英文BBC关键词的采集示例)

首先,进入智能采集入口,新建采集规则,设置栏目首页和文章前缀。

 智能采集入口

 

设置栏目首页地址:该栏目的第1页是

http://roll.blog.sina.com.cn/list/cul/index_1.shtml

2页是

http://roll.blog.sina.com.cn/list/cul/index_2.shtml

3页是

http://roll.blog.sina.com.cn/list/cul/index_3./shtml

可以看到页面变化的只是1,2,3,将栏目的变化页面设置为

[page:起始页-结束页:页码间隔],页码间隔为可选,如果是1就不用填了.这里可以设置成http://roll.blog.sina.com.cn/list/cul/index_[page:1-5].shtml

设置文章前缀:看看该栏目下的3文章:

http://blog.sina.com.cn/s/blog_4b99db850102e1ub.html

http://blog.sina.com.cn/s/blog_4850e3f30101m82x.html

http://blog.sina.com.cn/s/blog_afdcd843010171dj.html

可以发现都是以http://blog.sina.com.cn/s/

开头的,所以文章前缀可以设置成http://blog.sina.com.cn/s/

 

只需2步,这样一个栏目采集规则就设置好了。

该模式也可以支持整站采集,只需要输入主页就可以采集了,不过采集的文章不够精准,可能会有一些不需要的文章。

同时,该采集是支持断点采集的,采集不完的下次是可以继续接着上次的地方继续采集的,如果需要重新采集,点击“重置”按钮,可以初始化相应的采集规则。

相比正则采集模式,该模式在操作上简单许多,而且精确度也不会差很多,关于正则采集可以参考:http://www.chongsoft.com/zixun/wenti/27.html


联系地址:深圳市南山区南海大道花样年美年广场三栋1205 电话:0755-86617335 86617336
Copyright@2007 - 2012 深圳市辉创软件技术有限公司 All Rights Reserved
关键词:虫虫软件, 虫虫营销助手, 虫虫移动营销助手, 粤ICP备09204554号