基于VS2010+MSSQL2005开发的旅游垂直搜索引擎,带爬虫和网站。附件中的说明请参考:垂直搜索.xls。里面记载了数据库部署,打开,运行,架构图文信息本课题是本人今年带的毕业设计,有需要的请下载,观摩。在理解的基础上,爬虫端非常容易迁移后作为其他垂直搜索引擎。
抓取51aspx网站信息在正则上有点问题,不好匹配,作者@"div\sclass=""c-content""([\s\S].*?)
现在碰到的问题是正则匹配比较不靠谱,难度较大且不易扩展,目前打算想用HtmlAgilityPack来进行数据的匹配,希望伙伴们能指点下,谢谢大家。