- 51aspx源码必读.txt[2KB]
- AssemblyInfo.cs[2KB]
- Attribute.cs[2KB]
- AttributeList.cs[3KB]
- DocumentWorker.cs[7KB]
- Done.cs[2KB]
- Parse.cs[5KB]
- ParseHTML.cs[2KB]
- Spider.cs[5KB]
- Spider.csproj[4KB]
- SpiderForm.cs[11KB]
- SpiderForm.resx[14KB]
- TestSpider.cs[353B]
- App.ico[1KB]
- from.gif[4KB]
- Spider.csproj.user[2KB]
- Spider.sln[895B]
- Spider.suo[18KB]
- 最新Asp.Net源码下载.url[125B]
源码介绍
CSharpSpider源码
蜘蛛是一种半自动的程序,就象现实当中的蜘蛛在它的Web(蜘蛛网)上旅行一样,蜘蛛程序也按照类似的方式在Web链接织成的网上旅行。
蜘蛛程序之所以是半自动的,是因为它总是需要一个初始链接(出发点),但此后的运行情况就要由它自己决定了,蜘蛛程序会扫描起始
页面包含的链接,然后访问这些链接指向的页面,再分析和追踪那些页面包含的链接。从理论上看,最终蜘蛛程序会访问到Internet上的
每一个页面,因为Internet上几乎每一个页面总是被其他或多或少的页面引用。
C#特别适合于构造蜘蛛程序,这是因为它已经内置了HTTP访问和多线程的能力,而这两种能力对于蜘蛛程序来说都是非常关键的。
下面是构造一个蜘蛛程序要解决的关键问题:
HTML分析:需要某种HTML解析器来分析蜘蛛程序遇到的每一个页面。
页面处理:需要处理每一个下载得到的页面。下载得到的内容可能要保存到磁盘,或者进一步分析处理。
多线程:只有拥有多线程能力,蜘蛛程序才能真正做到高效。
确定何时完成:不要小看这个问题,确定任务是否已经完成并不简单,尤其是在多线程环境下。
下载记录(Only Recent 100)
用户名 | 推荐指数 | 下载时间 |
---|