您当前位置:首页 > 文章中心 > SCSCMS

SCSCMS系列课程之第四课

稿件来源: 阳光企业网站管理系统   撰稿作者: 太阳光   发表日期: 2010-10-20   阅读次数: 300   查看权限: 游客查看

本课主要讲解阳光企业网站管理系统采集功能。

采集功能是我们第一次自主开发,功能与性能都会受限制,但我们相信随着我们的研究深入,功能会越来越好!
首页进入网站后台,内容管理,数据采集。在采集管理里,点击右上边“采集开始”。

采集第一步:
1.采集主题:主要说明采集什么网站什么栏目。可随便写。
2.采集类型:文章或者新闻。
3.分页采集设置:批量生成适合有规律比较多页的形式;列表添加适合无规律页数少的情况。【重要】
4.源代码编码:指被采集网页的编码,如果选择错误将可能导致出现乱码!
5.作者信息:指编写此采集规则的作者信息。可随便写。

采集第二步:
1.采集主题,源代码编码,采集类型,源代码编码都是由第一步选定的,不可更改!
2.分页列表:列出所有需要采集的网页的链接,修改无效!
3.分页源代码:列出采集页中第一页的源代码做样本,供下面操作时查看,修改无效!
4.链接匹配代码:指采集链接其中之一的样本,由ASP正侧式匹配截取。格式是: 链接开始代码{$SCS}链接结束代码,注意禁止出现?*+^$这些ASP正侧式通匹符,否则可能截取不正确!【重要难点】
5.转成绝对地址:因为网页中一般不会采用绝对地址。例如链接地址为showarticle.asp那么就需要替换成http://www.scscms.com/article/showarticle.asp之类的。
6.内容标签过滤:指采集的内容中需要过滤的标签。强烈建议过滤iframe,object,script三种标签,其余自己酌情选择。特别注意如果过滤html标签等效过滤所有标签,不建议过滤html。总之越靠后的越不推荐过滤!
7.内容字符替换:指把采集到的内容,用特定的字符替换对应的字符。格式是:查找字符|替换字符
多个替换请使用分行隔开,可以为空表示不替换。
8.保存远程图片:指采集过程中把文章内容中的图片全部保存到本网站目录下,如果被采集网站图片过多就会造成速度缓慢,容易造成采集超时,同时占用大量空间。所以不推荐选择保存!

采集第三步:
1.采集主题,源代码编码,采集类型,源代码编码都是由第一步选定的,不可更改!
2.采集分类:指把采集到的内容归纳到哪个分类中。
3.采集列表:列出可采集的所有文章标题及链接,没打上勾的表示不采集!
4.文章详细源码:是采集列表中的第一个链接的样本源代码,供下面操作时查看,修改无效!
5.标题标志代码:指采集文章标题的结构标签。必需含{$SCS}【重要】
6.内容标志代码:指采集文章内容的结构标签。必需含{$SCS}【重要难点】
7.分页标志代码:当需要采集分页时设置,填写 scscms 表示没有分页。保持原分页结构指被采集文章是分页的地方采集入库时也对应分页。【难点】
8.时间标志代码:指采集文章时间的结构标签,必须符合yyyy-mm-dd或者yyyy-mm-dd hh:nn:ss格式,其它格式特别是含中文的不能入库。可直接指定值。
9.作者标志代码:指采集文章作者的结构标签。可直接指定值。
10.来源标志代码:指采集文章来源的结构标签。可直接指定值。
11.关键词代码:指采集文章关键词的结构标签。可直接指定值。
12.概要代码代码:指采集文章概要代码的结构标签。可直接指定值。
13.采集备注:针对此采集主题的一些说明注解。可随便写。
14.采集操作:三个选择,保存不采集指先保存此采集规则暂不采集。采集不保存指马上采集但并不保存修改过的采集规则。采集并保存指采集同时保存修改后的采集规则。
最后点下一步将结束此采集过程的修改,如果选择了采集立刻进入采集状态。

名词解释:
【可随便写】指并不重要的数据。
【修改无效】指你修改或者删除并不影响采集过程。
【可直接指定值】指一般文章内容无对应的值时,或者你不想使用采集中的值时,可直接指定内容。

视频地址http://www.scscms.com/media/2010-10/25902467.html

关键词: scscms,系列课程,阳光系统   编辑时间: 2011-01-10

  • 感到高兴

    2

    高兴
  • 感到支持

    0

    支持
  • 感到搞笑

    1

    搞笑
  • 感到不解

    0

    不解
  • 感到谎言

    1

    谎言
  • 感到枪稿

    0

    枪稿
  • 感到震惊

    0

    震惊
  • 感到无奈

    0

    无奈
  • 感到无聊

    0

    无聊
  • 感到反对

    0

    反对
  • 感到愤怒

    0

    愤怒
100%(3)
0%(0)
共有0 条评论 发言请遵守【相关规定

网友评论

会员头像
发 表同步腾讯微博    验证码:  点击更新请先登陆
  • 暂无评论
关闭模块文章图片 article Pictrue
  • 我的妈妈爸爸
  • 基于koa2+mysql+vue2.0+Element阳光内容管理系统
  • 代码覆盖率工具 Istanbul 入门教程
  • 全栈工程师的武器——MEAN
  • 9款超炫的 CSS3 复选框(Checkbox)
  • 微信开发在线翻译功能
  • CSS3那些不为人知的高级属性
  • 给easyui的datebox添加清空事件
  • flash写字效果
  • kendoUI系列教程之DropDownList下拉菜单
  • kendoUI系列教程之datetimepicker日期时间选择
  • kendoUI系列教程之datepicker日期选择
  • kendoUI系列教程之combobox下拉列表框
  • kendoUI系列教程之colorpicker
  • kendoUI系列教程之calendar日历表
  • kendoUI系列教程之autocomplete自动补齐