首页 [ 企业网站 ] 一套内容采集系统源码
一键分享

一套内容采集系统源码

  • 免费

2011-02-15 08:47:09

收藏 763 次|关注 15201 次|下载 3715 次

免费


交付物: 源码包
    商家已实名认证
  • 分享者:51asp***
  • 访问次数:   312567 次
  • 源码数量:   1241 套
  • 通过比率:   97%
  • 活跃于:   昨天
  • TEL:   13*******71
  • 最新IP属地:杭州市
  • 微信扫码咨询
.net

源码介绍

源码参数

  • 源码类别:【企业网站】
  • 源码类型:B/S
  • 适合人群: 进阶高手
  • 授权类型:免费版
  • 开发语言:C#
  • 数据库:SQL2005
  • 源码大小:1.86M
  • 相关网址: 【免费浏览】
  • 源码指数:
  • 完整度:
  • 采集结果
  • 网址设置
  • 网址列表
  • 内容设置
  • 采集结果
  • 网址设置
  • 网址列表
  • 内容设置
  • Aspx.Query.CodeImageQueryModel
  • Aspx.Query.CodeImageQueryModel
  • Aspx.Query.CodeImageQueryModel
  • Aspx.Query.CodeImageQueryModel

一套内容采集系统源码

一套内容采集系统 解放编辑人员 内容采集系统,对于以内容为主的网站来说是非常好的助手,除了原创内容外,其它内容需要编辑人员或者采集系统来收集整理,然后添加到自己的网站里。Discuz DvBBS CMS等产品,内部都自带了一个内容采集功能,来采集指定的相关内容。 单客户端的火车头采集器也可以非常好的采集指定的内容。这些工具都是想让机器代替人工,把编辑人员从内容搬运的工作中解放出来,做一些更高端的工作,例如采集结果的内容微调,SEO优化,设定精确的采集规则,让采集的内容更加符合自己网站的需要。

下面的内容采集系统就是从这个想法开发而来的,这个采集系统由两个部分组成:
1.  编辑人员所使用的采集规则设定器和对采集结果进行审核、微调和发布所使用的Web站点。
2.  部署在服务器上的定时采集器和定时发送器。


首先由编辑人员通过一个采集规则设定器(NiceCollectoer.exe)设定要采集的站点,再等采集完成后,编辑人员再通过一个Web站点(PickWeb)对采集的结果进行审核、微调和优化然后发布到自己的网站上。编辑人员所需要做的是采集规则的设定,和对采集结果的优化,其它部分的工作都由机器完成。

NicePicker 是Html 分析器,用来抽取Url,NiceCollector 和HostCollector 都使用NicePicker来分析Html, NiceCollectoer 就是采集规则设定器,一个目标网站只用设定一次:

使用起来和最早的火车头采集器类似,这里使用博客园来做目标采集站点, 设定采集精华区的文章,采集规则非常简单:当编辑人员设定好采集规则后,这些规则会保存到NiceCollector.exe同目录下的 Setting.mdb中。一般当采集规则设定好以后,基本上不用再变动了,只在目标网站的Html Dom结构发生变化时,需要再次微调一下采集规则。NiceCollector同时用于新目标采集站点的设定和添加操作。
等编辑人员完成采集规则的设定后,把Setting.mdb放到 HostCollector.exe下, HostCollector 会根据Setting.mdb的设定进行真正的采集,并把采集的结果存入数据库。


到这一步就完成了内容的采集工作,编辑人员可以打开PickWeb,对采集结果进行微调和优化,然后审核通过并发送到自己的网站上

真正发送采集结果到自己网站的工作不是由PickWeb完成的,编辑人员完成内容审核后,PostToForum.exe 会读取数据库并发送这条通过审核的采集结果到自己的网站上,在自己的网站上当然需要一个. ashx或者某种其它方式来接收采集的结果,不建议PostToFormu.exe直接去操作自己网站的数据库,最好通过自己网站上的某个API,来接收采集结果。


数据库在DB_51aspx文件夹中(sql2005),附加即可.
登陆用户名和密码都是51aspx

责任编辑:wxc

下载记录(Only Recent 100)

用户名 推荐指数 下载时间

源码评论

单击更换

评论列表

全部评论
  • 暂无评论 …

最近更新

      下载排行