通过C#语言.net winform框架实现的网络爬虫软件,网页大数据抓取工具。
该软件可以自动从网上爬取小说到软件中,软件分为 我的书架,书城,搜索和阅读界面。
模拟登陆阿里妈妈网站,爬虫操作获取联盟数据,以及商品的淘宝客链接转换,本程序开放了Api接口,是你开发淘宝客不二的选择,核心技术均已实现。
本程序采用多线程网页爬虫,对网站进行死链接的检测,主要检测的类型包括 网页链接
、以及避免对服务器资源的过度使用等性能优化用UDP取代封装好的HttpWebRequest/ResponseDNS缓存异步的DNS地址解析硬盘缓存或内存数据库以避免频繁的磁盘寻道分布式爬虫以扩展单机能力