也谈网页正文提取[下]和The Easy Way to Extract Useful Text from Arbitrary HTML两篇文章的非人工智能算法的部分（也就是使用静态阈值方法来提取文章正文）在算法和代码实现上都是完全一样的。虽然都是使用文本密度来识别文章正文部分，但他们对文本密度的计算方法和我的还是存在一定区别，这里以我个人的理解进行简单的比较分析。

他们在计算文本密度时，从头至尾逐步解析html，当遇到一行纯文本内容时，以这一行纯文本的长度作为“文本长度”，以这一行纯文本结束位置到上一行纯文本结束位置在原始html中所跨越的字符总数作为“字符长度”，并用两者的比值作为文本密度的值。这种计算方法存在一定的不合理性。从物理意义上来讲，“字符长度”应该是与修饰一段纯文本相关的html代码总长。但他们的计算方法是将纯文本之前的html标签作为其修饰成分，对于前后匹配的html标签来说，特别是纯文本被括在多层表格及<div>标签之内的情况，不能保证将各层标签的结束标签算作此段纯文本的修饰内容，相反却很可能将之计算为下一行纯文本所对应的字节长度组成部分。在极端条件下，也即分析第一行纯文本时，算法会将之前的所有html标签算作字节组成部分，也即包含了<head>部分，这不合理地极大地降低了密度的取值。虽然扫描一般html页面遇到的第一行纯文本通常是菜单或者导航部分，需要作为正文提取的可能性不大，但这种算法实现方法与其预期体现的物理意义不能很好地吻合。

我的实现则将每个html标签下涵盖的所有内容作为整体来分析，比如对一个<div>标签，算法将此起始标签与其对应结束标签之间包括的所有纯文本内容作为“文本长度”，包括的所有字节内容作为“字节长度”，如此计算文本密度，可以保证所涉及的字节一定是与对应的纯文本密切相关的。因此对于静态阈值方法来说，估计能够获得稍好的正文提取准确度。

当然，那两篇文章的方法也有一定好处，就是对纯文本内容按照行来区分，对后续人工智能的训练和处理过程来说更便于人的操作和理解。但文中提及的神经网络方法并不是唯一的选择，或许可以不考虑文本行，而是从 html 标签的出现顺序上寻找规律。

(Edit)

6. 讨论

======================= 回帖========================

用如下这段html作了测试，发现s也被提了出来，建议楼主直接过滤掉head

<html><head><title>s</title></head><body>The Easy Way to Extract Useful Text from Arbitrary HTML<div>abcde123451234512345</div><div>12345abcde1</div></body></html>

方寸慕云记

ExtMainText —— 提取html文档正文

1. 简介

2. 脚本下载

2.1 更新记录

3. 使用说明

4. 后续改进方向

5. 与其他实现的比较

6. 讨论