- 51Aspx源码必读.txt[6KB]
- App.config[217B]
- FodyWeavers.xml[178B]
- FodyWeavers.xsd[6KB]
- packages.config[298B]
- Program.cs[452B]
- YutianArticle.csproj[10KB]
- from .gif[4KB]
- logo.ico[89KB]
- Packages.dgml[1KB]
- YutianArticle.csproj.user[627B]
- YutianArticle.sln[1KB]
- 使用教程.docx[4.5MB]
- 最新Asp.Net源码下载.url[123B]
源码介绍
一、源码特点
1.通过C#语言.net winform框架实现的网络爬虫软件,网页大数据抓取工具。
2.是一款使用简单、功能强大的网络爬虫工具,完全可视化操作,无需编写代码,内置海量模板,支持任意网络数据抓取,连续五年大数据行业数据采集领域排名领先。
3.适合软件开发技术人员和做电子商务互联网企业做SEO和网络营销、网络推广、网站开发、网站运营、大数据处理等行业,适合想要学习winform 多线程网络技术的同学,适合销售、数据分析、政府机关、站长等。
二、项目详情
内部项目名:YutianArticle
产品名:雨田多线程爬虫采集软件SEO文章采集器
版本号:1.0
开发周期:4个月
开发时间:2015年-2022年
开发语言:C#
系统架构:C/S
软件类型:工具类
开发工具:Microsoft Visual Studio 2019
所用数据库:Access/json
开发系统: Windows 10
运行环境:Windows 2000/Windows Server 2003/Windows XP/Windows Server 2008/Windows Server 2012/Windows 7/Windows Vista/Windows 8||8.1/Windows 10
三、所用技术栈
1.HttpClient cookie网络请求技术。
2.Access数据库增删改查技术。
3.Winform ListView/ContextMenu控件,进度条控件。
4.数学和计算机编程结合。
5.HtmlAgilityPack网页html解析框架。
6.Costura.Fody发布为绿色版软件exe执行。
7.json序列化和反序列化技术。
8.大数据内容处理过滤算法。
四、产品功能点
1.智能采集文章,提供多种网页采集策略与配套资源,帮助整个采集过程实现数据的完整性与稳定性。
2.全网适用,眼见即可采,不管是文字图片,还是贴吧论坛,支持所有业务渠道的爬虫,满足各种采集需求。
3.内置了强大的数据格式化引擎,支持字符串替换、正则表达式替换或匹配、去除空格、添加前缀或后缀、日期时间格式化、HTML转码等多项功能,采集过程中全自动处理,无需人工干预,即可得到所需格式数据。
4.多线程,多任务模式,分布式云集群服务器和多用户协作管理平台的支撑,可灵活调度任务,顺利爬取海量数据。
5.通过简单的任务规则设置,便可实现自动化采集,全面覆盖多个行业,包括但不限于互联网,建筑,教育培训,医疗健康,科技,机械工程,电商,文化旅游,交通等行业。
6.清晰直观的界面和内容展现形式。
五、使用说明书
如何顺利采集一个网站的所有文章
可以先把config/urls文件夹下和config/urls2文件夹下的txt文本删除,任务删除。
步骤1:打开软件新建任务
步骤2:寻找行业网站-内容频道-翻页到第2页,复制url,再翻页到最后一页复制url
步骤3:输入列表页xpath代码
步骤4:输入内容页包含文章内容的div容器的xpath代码
步骤5:输入title截取字符串开始代码
步骤6:输入title截取字符串结束代码
步骤7:保存任务,刷新任务
步骤8:选择任务,点击采集url按钮,开始爬取内容页
步骤9:内容页爬取完成,刷新任务
步骤10:选择任务,点击开始任务按钮,下载所有内容页文章
步骤11:下载完成,查看下载后的文章
步骤12:关闭应用软件,点开根目录下的access数据库,文章已经完全采集完毕了
下单记录
用户名 | 源码评分 | 成交价 | 下单时间 | 订单状态 |
---|