URL2io — 提供简单、强大的网页正文提取服务

2016-09-30 11:28:28 +08:00

URL2io

URL2io.com — 提供简单、强大的网页正文提取服务

今天给大家分享的是一个网页正文提取服务 URL2Article ，主页地址：http://www.url2io.com

URL2Article 服务提供 RESTful API 接口，用来提取并解析网页中的正文区域，实现网页正文提取、标题提取、发布日期提取、下一页链接提取等。

功能列表

标题识别：

不仅仅是简单地提取 title 标签，而是智能识别网页正文的标题。

正文识别：

提取的内容将不含有任何广告、导航和其他非正文内容。网页正文中的所有链接、图片和其他媒体将予以保留。

发布日期识别：

智能识别文章的发布日期。

下一页链接识别：

智能识别当前网页的下一页链接。因为一篇完整的文章会被分成多个页面，所以这个功能会非常有用。

Demo

demo 地址：点这测试效果。

API 使用文档

可以查看相关文档 (URL2Article API doc) 来了解如何使用。

示例应用

为了让大家近一步了解这项服务，我们写了一个教学示例 Pageless，它使用 URL2Article API 来提取网页正文，并自动将被分成多页的文章合并成一页。
演示地址, 代码在 Github: url2io-app-samples

Feedback

That's all. 希望有兴趣的童鞋可以试用一下，然后给点反馈（使用中出现的问题、会用来开发什么、意见和建议等都可以）。欢迎留言讨论，或者 url2#sina.com ，或者 QQ 用户群： 341180183

23402 次点击

所在节点

102 条回复

pandachow

2016-09-30 15:39:56 +08:00

是在 readability 基础上做的么？

xvx

2016-09-30 15:50:01 +08:00

我搜索了一下，发现有个效果比 LZ 的要好……不过不是开源的。 LZ 研究下。

http://www.weixinxi.wang/open/extract.html

gujiaxi

2016-09-30 15:57:26 +08:00

@URL2io 求 bookmarklet 。

URL2io

2016-09-30 17:50:22 +08:00

@Aether 习惯性向上卷，哈哈

@pandachow 不是在 readability 的基础上做的，不过 readability 可以说是所有正文提取算法的始祖，所以说和 readability 还是有关系的。

URL2io

2016-09-30 17:50:47 +08:00

@xvx 这个我在开发时也搜到过，也一直作为比较的对象。效果上来说他这个倾向于于获取更少的正文，所以看上去会简洁一点，不过对于一些奇怪的页面效果就不太好。我这个倾向于获取更多的正文，所以在头部偶尔会将多余的内容卷进来，不过普适性更好，遇到很奇怪的页面都可以提取。其实不同的人对一个页面正文的部分的定义是不同的，要在简洁与普适这两者之间进行权衡。

URL2io

2016-09-30 17:51:18 +08:00

@gujiaxi Pageless 的吗？

将书签的地址改为:

<pre>javascript:location.href = 'http://blog.url2io.com/url2io-app-samples/pageless/?url='+encodeURIComponent(location.href);</pre>

不过 Pageless 用的是演示用的 API 是有频率限制的，可以根据 Pageless 的源码再结合正式的 API 搭建一个。

Aether

2016-09-30 17:53:49 +08:00

@URL2io 可能要针对主要网站都做一遍优化？这可是苦力活儿，但也是值钱的活儿；但是你可以列一堆 logo ，表示「这些网站已特别优化」，让用户放心使用。

techmoe

2016-09-30 18:09:15 +08:00

做这个的思路是什么？计算页面占比最大的 div ？

URL2io

2016-09-30 21:11:35 +08:00

@Aether 确实是个苦力活儿。你这个建议很不错 ^_^

URL2io

2016-09-30 22:18:14 +08:00

@techmoe 思路点抓得很好，不过页面占比只是众多特征中的一个。如果有相关需求还是推荐使用我们的产品，肯定比自己写的好用 ^_^

designer

2016-09-30 22:26:10 +08:00

支持，是不是有点像 pocket 插件

missdeer

2016-09-30 22:33:54 +08:00

效果也就一般，比如我一直看的盗版小说页面 http://www.piaotian.net/html/7/7762/5084075.html 页脚都没去掉

alexapollo

2016-10-01 00:01:55 +08:00

斯坦福前两年有篇论文写的就是这个方法，简单粗暴，但是做起来估计也得有不少 dirty work

pandachow

2016-10-01 00:10:14 +08:00

@URL2io 之前给团队项目做过一个类似的功能，我开始是在 Readability 基础上改，后来从 evernote 的 clearly 插件源码中又学了一些奇技淫巧。总的感觉 dirty work 比较多，以及很多 tricks …

URL2io

2016-10-01 09:05:09 +08:00

@designer 对，不同的是，把类似于 pocket 的提取功能作为接口提供给开发者了，这样自己都可以做一个 pocket 了。感谢支持！

URL2io

2016-10-01 09:23:14 +08:00

@missdeer 还在改进中…… 果然我们的样本还是很有限的，感谢反馈！

URL2io

2016-10-01 09:29:55 +08:00

@alexapollo @pandachow

我大 V 站的水太深了，以后还请多多指教

blueset

2016-10-01 11:01:31 +08:00

建议抓取用的 UA 兼容一下其他搜索引擎蜘蛛的特征串（除了 Google ）

部分用 JS 渲染内容的站点（比如我的）开启了根据 UA 判断针对 Bot 推送索引用全文的功能。这样提取起来也会方便些。

之所以说除了 Google 是因为 Google 的蜘蛛 Bot 可以解析渲染 JS 。所以很多类似的库就把 Google 排除在外了。

URL2io

2016-10-01 13:00:51 +08:00

@blueset 原来还有这样的技巧，我去试验一下，感谢感谢！

15015613

2016-10-01 21:02:02 +08:00

@URL2io
对几个百度贴吧的帖子试了一下，感觉效果不一
楼层数不定，大部分好像就提了个一楼
还有经常把百度加的广告也提了出来
另外，对于有图的贴子提取尤其的糟糕。

第 2 页／共 6 页

上一页下一页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/309948

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX