KesionCMS 帮助
帮助首页 V6使用手册 - 问题汇总

22、科汛V6采集文章列表教程系列二

0 2009/11/26 20:50:28

大家好,今天我们再讲一个关于采集文章列表的教程,今天的目标是网易的互联网新闻列表,地址是:http://tech.163.com/internet

好的,下面我们看一下采集设置的规则和步骤,首先依次点击“内容”,“内容管理”,“一键管理工具”,点击右边操作窗口的“新建项目”,输入采集的项目名称和采集后文章所归属的栏目,如下图:

22、科汛V6采集文章列表教程系列二 第 1 张

点击下一步,进入设置列表的采集规则,我们要采集的列表首页即列表索引页页如下所示:

列表索引页面:http://tech.163.com/internet

浏览这个网址,查看源文件,找到这个文章列表的开始和结束标记,如下:

列表开始标记://TechNews.getNews(TechNews.topicid, TechNews.date, TechNews.pagex);

列表结束标记:</script>

列表索引分页:不作设置

点击下一步进入设置链接的标记,如下:

链接开始标记:"url":"

链接结束标记:"

这项设置后我们就能看到

列 表 截 取 测 试

这里会看到列表页的效果,(随便点击一篇文章进入)点击下一步继续设置内容页的规则。

简短标题开始标记:<h1 id="h1title">

简短标题结束标记:</h1>

文章内容开始标记:<div id="endText">
 

文章内容结束标记:</div>
 

时间设置,可以不作设置,如果要采集对方站点的时间,选择设置标签,然后查看源代码如下:

时间开始标记: <span class="info">

时间结束标记: 来源:

点击下一步按钮进入可以预览到采集的内容,如下图:

22、科汛V6采集文章列表教程系列二 第 2 张

 

点击下一步,采集属性设置完成,如下图:

22、科汛V6采集文章列表教程系列二 第 3 张

在这最后一步,我们可以设置文章归属的栏目,模板的绑定及一些属性的设置,采集是否直接入库。

点击“完成”按钮,采集规则设置完毕。

返回到“信息采集管理”首页,我们点击采集规则后面的“采集”进入开始采集,如下图:

22、科汛V6采集文章列表教程系列二 第 4 张

 

好了,今天这节采集为您介绍到这边,采集系统采集注意代码规则的惟一性,大家在使用过程中如果碰到提示截取文章列表错误时,可以仔细检查一下您的采集规则是否具有惟一性。

 

100%