通过C#语言.net winform框架实现的网络爬虫软件,网页大数据抓取工具。
1.设置自由配置,参考“系统设置.ini”。 2.短信群发配置,请将群发号码写入mobile.txt文档。 3.信息发送返回报告,请参考源代码。 客户示例项目,确保真实可用。 程序可扩展开发语音等功能。
客户端涉及的相关功能技术:系统升级检测及更新,自定义皮肤,webbrowser多标签浏览器,58,赶集,搜房,安居客等多个网站自动登录,多个网站发布表单XML配置,脚本解析引擎,XPath,程序发布,图片上传等等等三
网站授权,授权文件生成,版权控制
Demo仅经过自己测试,并未在高峰期进行测试,代码质量很差,因为赶工,套用去年模板并未使用设计模式。代码存在如下BUG:1)代码使用。
8.可以实现百度自动翻页查找目标网站,同时可以设置最多翻页次数注意:访问网站采用的是弹出方式,启动另一个附加程序,之所以这样做,是因为百度对自动提交数据有限制,自动提交数据百度不认为是有效点击(根据经验得出来
,不足之处大家还得见谅,多提意见,单页采集只是对一个页面进行采集,多页采集可以添加多个页面地址进行采集(一个模板,有多个页面时,需把对应的地址输入进去)注意:开发环境为VisualStudio2010
因为目前ShootSearch只能处理单个网站的远程采集,所以这里最关键的,“处理规则设置“和”文件名过滤器“。
因此您在添加网站时。填写要注意名称。2、软件只截取所打开的网站的HTML前1024字节的大小(英文:1000字符左右,汉字:500字符)您在填写“网站名称”时。字符位置因控制好。