通过京东商品链接,抓取该宝贝对应的主图和详情图,支持压缩下载所有抓取到的图片,用于借鉴。
根据淘宝商品链接,抓取该商品的主图(一般有5张主图)和详情图(目前淘宝商品详情基本都是由图片组成)。抓取后,可批量下载所有的主图和详情图,用于借鉴。
2、开发环境为VisualStudio2010,数据库为SQLServer2008R2,数据库文件在DB_51aspx文件夹中,使用.net4.0开发。3、默认数据
://www.catalogueoflife.org/col/browse/classification/抓取的数据自动保存到txt文件里。
页面搜索功能设置:搜索网站选择框,采集信息的显示条数及关键字输入框;显示列表:编号,信息来源,标题,抓取内容,点击率,抓取时间等功能
现在碰到的问题是正则匹配比较不靠谱,难度较大且不易扩展,目前打算想用HtmlAgilityPack来进行数据的匹配,希望伙伴们能指点下,谢谢大家。
,需要重新抓取)注意:开发环境为VisualStudio2010