KesionCMS 帮助
帮助首页 在线手册 - 问题汇总

13、[实例教程]轻松采集文章信息

0 2011/12/29 11:49:24

 信息采集管理系统的作用:

 能帮忙企业在信息采集,资源整合方面节约大量的人力与资金。广泛应用于行业门户网站,竞争情报系统,知识管理系统,网站内容系统,垂直搜索,科研等领域。

今天我们这节以采集腾讯网站的各地新闻列表为例,一步步教您如何来运用采集系统,如何设置采集规则。

点击内容管理-->信息采集管理,如下图:

13、[实例教程]轻松采集文章信息 第 1 张

点击“新建项目”,所属模型选择文章 ,所属栏目即您要采集的信息是要放到哪个栏目下,我们选择国内新闻栏目,如下图:

 

13、[实例教程]轻松采集文章信息 第 2 张

点击“下一步”进入设置列表索引和开始结束标记,如下图:

 

13、[实例教程]轻松采集文章信息 第 3 张

这时我们要打开采集的信息页面第一页,并将网址复制粘贴到列表索引页面:http://news.qq.com/newsgn/gdxw/gedixinwen.htm

下面的标记需要我们查看网页生成的源代码,如下图:

13、[实例教程]轻松采集文章信息 第 4 张

搜索找到”各地新闻”,注意观察,我们发现各地新闻的信息列表,在分页下边找到列表开始标记:
<div class="mod newslist">
再到底部分页上找列表结束标记:
  

13、[实例教程]轻松采集文章信息 第 5 张


填好后再点击“下一步”按钮继续我们的采集任务,然后找链接开始和结束标记,如下图:
  

13、[实例教程]轻松采集文章信息 第 6 张

我们看到列表截取测试中我们已经成功截取了一些信息列表。还是查看刚才的源代码去找,如下图:

 

13、[实例教程]轻松采集文章信息 第 7 张

我们看到链接开始是:

<a target="_blank" href="

结束是:

">

填上后,如下图:

 

13、[实例教程]轻松采集文章信息 第 8 张

 

点击“下一步”继续设置文章简短标题标记,如下图:

13、[实例教程]轻松采集文章信息 第 9 张

此时,我们 看到”上一步”“下一步”按钮下方有分析列表链接测试,我们可以试试是否链接是正确的。如下图:

13、[实例教程]轻松采集文章信息 第 10 张

接下来,我们就打开一篇文章查看其源代码,如下图:

13、[实例教程]轻松采集文章信息 第 11 张

搜索文章标题,然后找到代码,如下图:

 

13、[实例教程]轻松采集文章信息 第 12 张

将<h1></h1>填到简短标题开始和结束标记中,下面再找到文章内容开始和结束标记,如下图:

13、[实例教程]轻松采集文章信息 第 13 张

13、[实例教程]轻松采集文章信息 第 14 张

 

将标题开始结束标记填上,并找出文章内容的开始和结束标记填上,如下图:

13、[实例教程]轻松采集文章信息 第 15 张

 

此时如果是提示截取列表错误,那么您可能是没有找到惟一性,需要继续测试。我们如果前面设置的没有问题那么继续点击“下一步”,如下图:

13、[实例教程]轻松采集文章信息 第 16 张

看到上面这个界面,欢呼吧,我们采集成功了。继续点击“下一步”作一些相关的采集设置。如果我们需要采集的文章中有图片的让它自动转为图片文章则勾选,如下图:

13、[实例教程]轻松采集文章信息 第 17 张

 

点击“完成”按钮,设置采集规则完成了。如下图:

13、[实例教程]轻松采集文章信息 第 18 张

点击“确定”按钮返回到采集管理首页,如下图:

13、[实例教程]轻松采集文章信息 第 19 张

 

此时,您只需点击“采集”链接进行采集信息了。

 

上面我们介绍的是只采集信息列表一页的情况,那么如果我们需要采集的信息数比较多页,我们就返回来观察一下信息列表页的生成规则,如下图:

13、[实例教程]轻松采集文章信息 第 20 张

 

鼠标移到2显示的是http://news.qq.com/newsgn/gdxw/gedixinwen_2.htm

 

那么我们可根据他的这种生成规则编辑一下我们的采集项目到这步的时候选择批量生成,并将网址复制粘贴进去,将页数改为{$ID},生成范围填上数字,比如需要采集前8页,我们就填2-8,如下图:

 

13、[实例教程]轻松采集文章信息 第 21 张

设置好,我们像上面设置一下点击”下一步”, ”下一步”按钮直到设置完毕。

 

返回到采集管理首页,点击“采集”链接,如下图:

 

13、[实例教程]轻松采集文章信息 第 22 张

 

然后系统进入开始采集界面,如下图:

 

13、[实例教程]轻松采集文章信息 第 23 张

 

这里注意一点,采集的时候请勿刷新这个页面。

 

采集完成系统会自动统计共采集多少篇,成功几篇,失败几篇,图片有几张。

 

我们点击“审核入库”按钮进入进入可查看我们成功采集的文章,可以进入批量选择将文章进行入库,如下图:

13、[实例教程]轻松采集文章信息 第 24 张

 

 

 

如果所有的文章都要进行入库,则点击“全部入库”按钮,如下图:

13、[实例教程]轻松采集文章信息 第 25 张

点击“确定”按钮。我们回到文章系统中,看到文章都被成功入库了,如下图:

13、[实例教程]轻松采集文章信息 第 26 张

 

我们返回到信息采集管理中,看到“历史记录”按钮,点击后可以将所有采集的历史记录清空掉,如下图:

13、[实例教程]轻松采集文章信息 第 27 张

 

 

100%