首页 [ 网络应用 ] Html网页正文提取工具源码
一键分享

Html网页正文提取工具源码

  • 免费

2014-07-08 09:05:19

标签无关,提取正文不依赖标签

  • 源码类型: C/S
  • 开发环境: VS2010 + 无数据库
  • 开发语言: C#
  • 标签: 正文提取 提取算法
  • 评分:

免费

购买类型: 源码包
  • 总浏览:4863
    商家已通过实名认证
  • 分享者:xiaohan05202
  • 成交次数:   0 次
  • 访问次数:   30384 次
  • 源码数量:   297 套
  • 通过比率:   66%
  • 活跃于:   2016-12-25 09:00:22
  • TEL:   15*******45
  • 分享者:xiaohan05202 QR_Code

    扫码
    私信我

.net
  • 51Aspx源码必读.txt[3KB]
  • .gitignore[227B]
  • .tfignore[5B]
  • from.gif[4KB]
  • Html2Article.nuspec[966B]
  • Html2Article.sln[3KB]
  • 最新Asp.Net源码下载.url[123B]

源码介绍

源码参数

  • 源码类别:【网络应用】
  • 源码类型:C/S
  • 适合人群: 进阶
  • 授权类型:免费版
  • 开发语言:C#
  • 数据库:无数据库
  • 框架版本:1.00
  • 源码大小:381KB
  • 相关网址: 【免费浏览】
  • 源码指数:
  • 完整度:
  • 上架时间:2014-07-08 09:05:19
  • 主功能界面
  • 提取正文
  • 原始网页
  • 主功能界面
  • 提取正文
  • 原始网页
  • Aspx.Query.CodeImageQueryModel
  • Aspx.Query.CodeImageQueryModel
  • Aspx.Query.CodeImageQueryModel
一、源码特点
    1、标签无关,提取正文不依赖标签。
    2、支持从压缩的html文档中提取正文内容。
    3、支持带标签输出原始正文。
    4、核心算法简洁高效,平均提取时间在30ms左右。
二、功能介绍
    .NET平台下,一个高效的从Html中提取正文的工具。
    正文提取采用了基于文本密度的提取算法,支持从压缩的Html文档中提取正文,每个页面平均提取时间为30ms,正确率到95%以上。
三、注意
    1、Html2Article类是提取正文的核心类
    2、Html2Article配置说明
    (1)AppendMode:是否使用正文追加模式,默认为false,设置为true会将更多符合条件的    文本添加到正文。
    (2)Depth:分析的深度,默认为5,对于行空隙较大的页面可增加此值。
    (3)LimitCount:字符限定数,当分析的文本数量达到限定数则认为进入正文内容,默认为180个字符。
    (4)GetArticle(string html):从Html文本中获取Article。
责任编辑:xiao

购买记录

用户名 源码评分 价格 购买时间 状态

源码评论

单击更换

评论列表

全部评论
  • 暂无评论 …

最近更新

      下载排行