首页 [ 网络应用 ] Html网页正文提取工具源码
一键分享

Html网页正文提取工具源码

  • 免费

2014-07-08 09:05:19

标签无关,提取正文不依赖标签

  • 源码类型: C/S
  • 开发环境: VS2010 + 无数据库
  • 开发语言: C#
  • 标签: 正文提取 提取算法
  • 评分:
收藏 269 次|关注 5337 次|下载 607 次

免费


交付物: 源码包
    商家已实名认证
  • 分享者:xiaoh***
  • 访问次数:   38621 次
  • 源码数量:   297 套
  • 通过比率:   66%
  • 活跃于:   三个月前
  • TEL:   15*******45
  • 最新IP属地:北京市
  • 微信扫码咨询
.net
  • 51Aspx源码必读.txt[3KB]
  • .gitignore[227B]
  • .tfignore[5B]
  • from.gif[4KB]
  • Html2Article.nuspec[966B]
  • Html2Article.sln[3KB]
  • 最新Asp.Net源码下载.url[123B]

源码介绍

源码参数

  • 源码类别:【网络应用】
  • 源码类型:C/S
  • 适合人群: 进阶
  • 授权类型:免费版
  • 开发语言:C#
  • 数据库:无数据库
  • 源码大小:381KB
  • 相关网址: 【免费浏览】
  • 源码指数:
  • 完整度:
  • 主功能界面
  • 提取正文
  • 原始网页
  • 主功能界面
  • 提取正文
  • 原始网页
  • Aspx.Query.CodeImageQueryModel
  • Aspx.Query.CodeImageQueryModel
  • Aspx.Query.CodeImageQueryModel
一、源码特点
    1、标签无关,提取正文不依赖标签。
    2、支持从压缩的html文档中提取正文内容。
    3、支持带标签输出原始正文。
    4、核心算法简洁高效,平均提取时间在30ms左右。
二、功能介绍
    .NET平台下,一个高效的从Html中提取正文的工具。
    正文提取采用了基于文本密度的提取算法,支持从压缩的Html文档中提取正文,每个页面平均提取时间为30ms,正确率到95%以上。
三、注意
    1、Html2Article类是提取正文的核心类
    2、Html2Article配置说明
    (1)AppendMode:是否使用正文追加模式,默认为false,设置为true会将更多符合条件的    文本添加到正文。
    (2)Depth:分析的深度,默认为5,对于行空隙较大的页面可增加此值。
    (3)LimitCount:字符限定数,当分析的文本数量达到限定数则认为进入正文内容,默认为180个字符。
    (4)GetArticle(string html):从Html文本中获取Article。
责任编辑:xiao

下载记录(Only Recent 100)

用户名 推荐指数 下载时间

源码评论

单击更换

评论列表

全部评论
  • 暂无评论 …

最近更新

      下载排行