java爬虫抓取小说信息,提供用户在线阅读
根据淘宝商品链接,抓取该商品的主图(一般有5张主图)和详情图(目前淘宝商品详情基本都是由图片组成)。抓取后,可批量下载所有的主图和详情图,用于借鉴。
四、注意事项1、开发环境为VisualStudio2010,无数据库,使用.net2.0开发。2、该源码仅适合课程设计或者课程设计使用以及学习交流使用。
页面搜索功能设置:搜索网站选择框,采集信息的显示条数及关键字输入框;显示列表:编号,信息来源,标题,抓取内容,点击率,抓取时间等功能
现在碰到的问题是正则匹配比较不靠谱,难度较大且不易扩展,目前打算想用HtmlAgilityPack来进行数据的匹配,希望伙伴们能指点下,谢谢大家。
,需要重新抓取)注意:开发环境为VisualStudio2010