怎样提取网页中的正文内容？就像evernote的剪藏和悦读一样？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

这是一个创建于 3961 天前的主题，其中的信息可能已经有所发展或是发生改变。

剪藏插件很多情况下对正文的层的猜测很准，而网页多种多样，它是怎么猜测的呢？

目前想到可能的方法：

找到一级或二级最多三级的标签，然后计算他们的大小，选尺寸最大的作为正文层

7 条回复 • 1970-01-01 08:00:00 +08:00

takwai

2013-06-21 17:36:32 +08:00

基于行块分布函数的通用网页正文抽取：线性时间、不建DOM树、与HTML标签无关
https://code.google.com/p/cx-extractor/

ijse

2013-06-21 17:40:04 +08:00

@takwai 非常感谢！

ijse

2013-06-21 17:47:34 +08:00

@takwai 看完陈鑫的论文后，发现这个可能不是特别适合我的需求。

我想取的是正文这一层，而可能不仅仅是网页的*正文文字*，，

luin

2013-06-21 18:00:21 +08:00

Readability那样的吗？ https://code.google.com/p/arc90labs-readability/

会计算标签名、类名、链接数量、正文长度、标点符号、图片等信息。

BeijingBaby

2013-06-21 18:04:59 +08:00

基于块的文本密度目前应该比较好的算法，楼主可以先了解下这方面的知识，你猜测的那个方法也差别太大了。

ijse

2013-06-21 18:08:53 +08:00

@luin
@takwai

需求大致是这样的：能够自动找出页面中的主要内容，这内容有可能是一个flash，正文，也可能是视频, canvas等。

暂时想到的方案是，找出尺寸最大的标签

ijse

2013-06-21 18:10:18 +08:00

@BeijingBaby 多谢，我看过这个算法了，可貌似它只适用于提取网页中的正文文字信息；但我的需求可能还包括flash等信息，我需要的是整个标签的html内容