新特性介绍爬取文件用BerkeleyDB存储提高性能:常用操作系统不善于处理大量小文件基于URLRanking的优先级队列主题爬虫:机器学习算法对链接与主题相关度进行评估,并按照得出的优先级顺序进行爬取爬虫礼仪遵循爬虫禁止协议
已登录