DEDECMS火车头采集

采集文章并发布到DedeCMS

我们以腾讯广州新闻为例,来讲一下文章的采集和发布,也包括图片的下载及上传。网址http://news.qq.com/gd/gdnews/guangzhou/guangzhounews.htm,我们一步步来讲。

1.

新建站点

2.

在该站点上新建任务

3.网址规则,查看一下源代码,发现这些网址代码在一个区域里,我们可以这样写规则

测试一下,正确,下边该采内容了。

4.内容规则制作。我们随便找个页面,如http://news.qq.com/a/20090204/000175.htm,先测试

一下

看了一下,里边是有我们需要的东西的,这说明火车可以采它。下边做一下具体的内容采集规则。

标题如何获取呢?就用默认的,过滤个“_社会万象_新闻_腾讯网”就可以了。这个是如果您不懂代码时使用的方法,内容也可以这样做。对于一般的简单的采集来说,没有什么大的问题。但是对于一些相对比较复杂的网页采集来说,还是需要仔细分析源码,分析网页结构。下边我们做具体的分析。分析工具IE可以使用iedevelopertoolbar,firefox可以使用插件firebug(具体请在工具'附件-组件浏览-附加组件里'查看并安装),google可以使用右键“审查元素”。我以firebug为例

:

经分析我们可以得知,内容在id为cntMain的区域内,标题id是ArticleTit,

店员疑因手机爆炸死亡续:现场发现9发子弹

,所以标题我们可以这样写,注意,截取的代码要以查看源码里的格式为准.

内容这一块是ArticleCnt,我们以ArtPLink

作为结束。内容的采集就是这样了.

我们测试一下,是可以采到所有内容了,但是还有广告和其它一些乱七八糟的代码在里边,我们要过滤掉它。我看最上边的分析代码,广告代码,就那个推荐阅读,id是reading,所以我们这样过滤..看一下,没有了,但要注意的一点是,这个还有个之前报道.请看图,大多数的是不一样的,比如有的是相关报道,有的是事件回

放.有的只是链

接.

这样过滤就有些复杂了.只是能单个过滤.我这里就过滤一下链接.其它的大家可以自己再处理.然后我们看一下,还有文章尾部还有一接文章链接,这是我们不需要的,过滤掉.再过滤

些,然后再多找几个页面测试,查找问题,最后的结果如图

5.发布设置。我们使用WEB在线发布,将数据发到dedecms5.1里去。我们选中发布,然后点定义在线post到网站全局设置.弹出web在线配置管理器

.

这时我们选添加,出现添加web发布配置.我们来先看一下使用说明,这个要仔细看一下,具体可以参考一下WEB在线发布模块的修改这篇文章,看完后开始配置:

我们发布到本地网站dedecms5.3里,所以模块选对应版本的,网站管理目录是

http://dede53gbk/dede,所以按说明填写上,然后是选定编码,我们网站gbk的,所以选gbk.然后是登陆网站,使用火车内置浏览器登陆.

如图

然后就可以登陆成功后关闭火车浏览器了.下边我们来刷新列表,这个是用来指定将文章发布到哪个栏目的,如图

可以看到是成功获取到栏目了,然后我们测试配置

我们可以看到是成功发布了,网站后台查看一下,也是成功的,现在就可以保存一下配置名,在发布时使用了.示例保存为dedegbk53.

现在我们在任务发布设置那里右

键,,

选择我们刚才的

dedegbk53,然后再点一下选择分类就可以指定将这个任务里的文章发布到网站的对应栏目了,我

们可以添加多个配置,当然一个配置也可以在多个任务里被添

.

这样,web发布配置就弄好了,我们现在来讲一下如何下载图片,如图

上图,分别是运行时线程设置,如果您网络不好,就改大一些.文件下载设置部分,本地文件保存文件夹可以任意选个目录,然后程序会在该目录下生成图片,flash,其它文件的保存地址.文件链接地址前缀是在网站上显示的路径,如上图,我本地保存的图片文件最终地址会是a+1+/文件名,网站上对应地址是b+1+/文件名,如果用ftp上传,b和c的路径要对应.

下载的具体设置在标签里指定,也可以指定下载文件的命名方式.

现在,我们所有配置都已经做好了,可以直接开始采集并发布了,保存好任务后选中任务,点开始

.需要注意的是,这里是可以不一次选的,采网址,采内容,发内容可以分次进行,我们演示的一次全部完成.点开始,我们可以看到运行进度

.

我们去网站后台看一下效果,

随便找一个文章,都是正常的,图片也正常,如果您不是直接保存到网站目录,请用ftp工具上传.一个完整的采集发布过程结束.

采集文章并发布到DedeCMS

我们以腾讯广州新闻为例,来讲一下文章的采集和发布,也包括图片的下载及上传。网址http://news.qq.com/gd/gdnews/guangzhou/guangzhounews.htm,我们一步步来讲。

1.

新建站点

2.

在该站点上新建任务

3.网址规则,查看一下源代码,发现这些网址代码在一个区域里,我们可以这样写规则

测试一下,正确,下边该采内容了。

4.内容规则制作。我们随便找个页面,如http://news.qq.com/a/20090204/000175.htm,先测试

一下

看了一下,里边是有我们需要的东西的,这说明火车可以采它。下边做一下具体的内容采集规则。

标题如何获取呢?就用默认的,过滤个“_社会万象_新闻_腾讯网”就可以了。这个是如果您不懂代码时使用的方法,内容也可以这样做。对于一般的简单的采集来说,没有什么大的问题。但是对于一些相对比较复杂的网页采集来说,还是需要仔细分析源码,分析网页结构。下边我们做具体的分析。分析工具IE可以使用iedevelopertoolbar,firefox可以使用插件firebug(具体请在工具'附件-组件浏览-附加组件里'查看并安装),google可以使用右键“审查元素”。我以firebug为例

:

经分析我们可以得知,内容在id为cntMain的区域内,标题id是ArticleTit,

店员疑因手机爆炸死亡续:现场发现9发子弹

,所以标题我们可以这样写,注意,截取的代码要以查看源码里的格式为准.

内容这一块是ArticleCnt,我们以ArtPLink

作为结束。内容的采集就是这样了.

我们测试一下,是可以采到所有内容了,但是还有广告和其它一些乱七八糟的代码在里边,我们要过滤掉它。我看最上边的分析代码,广告代码,就那个推荐阅读,id是reading,所以我们这样过滤..看一下,没有了,但要注意的一点是,这个还有个之前报道.请看图,大多数的是不一样的,比如有的是相关报道,有的是事件回

放.有的只是链

接.

这样过滤就有些复杂了.只是能单个过滤.我这里就过滤一下链接.其它的大家可以自己再处理.然后我们看一下,还有文章尾部还有一接文章链接,这是我们不需要的,过滤掉.再过滤

些,然后再多找几个页面测试,查找问题,最后的结果如图

5.发布设置。我们使用WEB在线发布,将数据发到dedecms5.1里去。我们选中发布,然后点定义在线post到网站全局设置.弹出web在线配置管理器

.

这时我们选添加,出现添加web发布配置.我们来先看一下使用说明,这个要仔细看一下,具体可以参考一下WEB在线发布模块的修改这篇文章,看完后开始配置:

我们发布到本地网站dedecms5.3里,所以模块选对应版本的,网站管理目录是

http://dede53gbk/dede,所以按说明填写上,然后是选定编码,我们网站gbk的,所以选gbk.然后是登陆网站,使用火车内置浏览器登陆.

如图

然后就可以登陆成功后关闭火车浏览器了.下边我们来刷新列表,这个是用来指定将文章发布到哪个栏目的,如图

可以看到是成功获取到栏目了,然后我们测试配置

我们可以看到是成功发布了,网站后台查看一下,也是成功的,现在就可以保存一下配置名,在发布时使用了.示例保存为dedegbk53.

现在我们在任务发布设置那里右

键,,

选择我们刚才的

dedegbk53,然后再点一下选择分类就可以指定将这个任务里的文章发布到网站的对应栏目了,我

们可以添加多个配置,当然一个配置也可以在多个任务里被添

.

这样,web发布配置就弄好了,我们现在来讲一下如何下载图片,如图

上图,分别是运行时线程设置,如果您网络不好,就改大一些.文件下载设置部分,本地文件保存文件夹可以任意选个目录,然后程序会在该目录下生成图片,flash,其它文件的保存地址.文件链接地址前缀是在网站上显示的路径,如上图,我本地保存的图片文件最终地址会是a+1+/文件名,网站上对应地址是b+1+/文件名,如果用ftp上传,b和c的路径要对应.

下载的具体设置在标签里指定,也可以指定下载文件的命名方式.

现在,我们所有配置都已经做好了,可以直接开始采集并发布了,保存好任务后选中任务,点开始

.需要注意的是,这里是可以不一次选的,采网址,采内容,发内容可以分次进行,我们演示的一次全部完成.点开始,我们可以看到运行进度

.

我们去网站后台看一下效果,

随便找一个文章,都是正常的,图片也正常,如果您不是直接保存到网站目录,请用ftp工具上传.一个完整的采集发布过程结束.


相关内容

  • 必须要掌握的SEO优化基本知识
  • 必须要掌握的SEO优化基本知识 DEDECMS目前市场的占有率越来越高,越来越多的站长喜欢使用DEDECMS建站程序来建设网站,主要的原因DEDECMS是一套开源程序,在互联网上有很多免费的模板可以使用,使用DEDECMS建设网站就变得异常的简单,不过正是因为DEDECMS有很多免费的大餐,所以懂得 ...

  • dedecms后台验证码错误的解决方法
  • 不少朋友在登陆DedeCMS后台的时候遇到验证码错误的问题,明明已经正确输入了,却提示错误,导致登录不进后台.如果遇到这个问题,可以通过下面的方法检测修复. 1.空间满了.我遇到的验证码错误都是空间满了,如果也遇到验证码错误的问题,可以先检查是否空间满了. 2.用ftp进入你的dedecms程序空间 ...

  • 如何正确标引参考文献
  • 去向:http://bbs.ibioo.com/forum.php?mod=forumdisplay&fid=128[摘要] 参考文献是医学科研论文的重要组成部分,因此如何正确著录参考文献,历来受到广泛重视,但参考文献部分的错误往往也是稿件中问题比较多的部分之一.参考文献应用中常见的问题有: ...

  • 论文写作题目
  • Red and White-----the Dual Symbolic Colors of Tess白色和红色-----苔丝的双重象征色 Fang Hongjian-the Tragic Figure Struggling in "Fortress Besieged" 挣扎于&q ...

  • dedecms织梦 调用栏目(分类)的文章数量的两种方法
  • dede统计栏目文章数这一功能还是比较实用的,本文有两种实现方法,大家可以根据需求自由选择. 方法一: 涉及到文件:include/common.func.php 在include/common.func.php最下面也就是?>前加入以下代码 代码如下: function GetTotalAr ...

  • dedecms留言板
  • 一.后台安装插件 二.打开根目录/dede/catalog_do.php 找到留言簿管理 else if($dopost=="guestbook") { ShowMsg("正在跳转到留言本>>", "{$cfg_phpurl}/messa ...

  • 手把手教您如何抓住顾客心理
  • 2009-10-14 19:10:45 来源:淘宝网 作者:雯雯 [大 中 小] 点击: 130 我要投稿 收藏到: 我在经验居也发了不少帖子了吧! 精华贴还是蛮多的, 这还要谢谢各位对小子的支持,同时也感谢上海典欣,给了一个让我能与大家一起分享销售经验的机会. dedecms.com 同时还要感谢 ...

  • DedeCMS二次开发手册
  • DedeCMS V5.7二次开发手册 一.模板篇 1.1.主要模板文件与功能说明 DedeCMS系统的模板是非固定的,用户可以在新建栏目时可以自行选择栏目模板,官方仅提供最基本的默认模板,即是内置系统模型的各个模板,由于DedeCMS支持自定义频道模型,用户自定义新频道模型后,还需要按该模型的字段设 ...

  • 医药销售经理如何设计奖惩方案解决品种销售不平衡的难题
  • 医药销售经理经常遇到这样的难题:单一品种销售情况还不错,随着销售品种数量的增加,新上品种的销售往往滞后,不管你如何强调,团队销售人员就是不动,即使动也是应付差事,那么有什么办法可以解决这个问题呢?北京群英伟业医药营销培训公司首席培训师岳峰将以自己的实战经验为各位医药经理人提出一些建议,供您参考使用. ...