URL2io — 提供简单、强大的网页正文提取服务

2016-09-30 11:28:28 +08:00

URL2io

URL2io.com — 提供简单、强大的网页正文提取服务

今天给大家分享的是一个网页正文提取服务 URL2Article ，主页地址：http://www.url2io.com

URL2Article 服务提供 RESTful API 接口，用来提取并解析网页中的正文区域，实现网页正文提取、标题提取、发布日期提取、下一页链接提取等。

功能列表

标题识别：

不仅仅是简单地提取 title 标签，而是智能识别网页正文的标题。

正文识别：

提取的内容将不含有任何广告、导航和其他非正文内容。网页正文中的所有链接、图片和其他媒体将予以保留。

发布日期识别：

智能识别文章的发布日期。

下一页链接识别：

智能识别当前网页的下一页链接。因为一篇完整的文章会被分成多个页面，所以这个功能会非常有用。

Demo

demo 地址：点这测试效果。

API 使用文档

可以查看相关文档 (URL2Article API doc) 来了解如何使用。

示例应用

为了让大家近一步了解这项服务，我们写了一个教学示例 Pageless，它使用 URL2Article API 来提取网页正文，并自动将被分成多页的文章合并成一页。
演示地址, 代码在 Github: url2io-app-samples

Feedback

That's all. 希望有兴趣的童鞋可以试用一下，然后给点反馈（使用中出现的问题、会用来开发什么、意见和建议等都可以）。欢迎留言讨论，或者 url2#sina.com ，或者 QQ 用户群： 341180183

23409 次点击

所在节点

102 条回复

livc

2016-10-01 21:13:21 +08:00

telegram 的正文不知如何提取的

URL2io

2016-10-01 23:10:53 +08:00

@livc 我记得以前 V 站有个帖子讨论过，好像是和 desc 有关的

URL2io

2016-10-01 23:22:03 +08:00

@15015613 贴吧、论坛之类的帖子其实可以理解为一篇文章的评论部分，所以从我们的角度来说这些帖子其实是没有正文的 -_-!
不过这种应该算是更广义的正文了，目前我们还没这个精力去做这方面的研究……

jqw1992

2016-10-02 10:27:22 +08:00

强大

iannil

2016-10-02 11:01:38 +08:00

微信公众号文章，图片全丢。

Warder

2016-10-02 13:32:20 +08:00

嗯，效果还挺不错

qianddream

2016-10-02 14:26:12 +08:00

@URL2io 知乎这种问答网站如何处理？

URL2io

2016-10-02 14:59:16 +08:00

@iannil 目前还不支持网页中惰性加载的图片，不过这部分和 URL2Images (开发中) 用到的技术有交叉，所以之后会加上对这个的支持。感谢反馈！

URL2io

2016-10-02 15:27:52 +08:00

@qianddream 仅从问答上来说，知乎有两类页面：

1. [https://www.zhihu.com/question/49658687]( https://www.zhihu.com/question/49658687) 用来展示提问者的问题，不过同时可包含了许多回答者的解答。形式上可以理解为一篇每个回复都比较长的帖子，正文的概念很弱。结果就是效果不一，无法评判。
2. [https://www.zhihu.com/question/49658687/answer/117123835]( https://www.zhihu.com/question/49658687/answer/117123835) 用来展示回答者对一个问题的解答。形式上可以理解为一篇博客文章，提取这种还是 URL2Article 比较擅长的。

所以，还是看使用者的策略吧，比如：从提问页提取出所有回答的链接，再用 URL2Article 提取出每个回答。

beidouxun

2016-10-02 16:28:04 +08:00

我最近对这方面很感兴趣。尤其是如何判断正文部分和发布日期的。我的网站后台必须填写相关规则才能提取。

URL2io

2016-10-02 20:45:08 +08:00

@beidouxun 用我们的产品呗，把精力放在你要实现的功能上 ^_^

xiubin

2016-10-03 08:20:40 +08:00

Mark ，打算写一个 RSS 阅读器，估计用的到。以后会有一直维护，和免费吗？

20015jjw

2016-10-03 09:12:41 +08:00

希望能 push 到 kindle

URL2io

2016-10-03 14:51:07 +08:00

@xiubin 请放心会一直维护的。对于免不免费还没考虑过，还早呢，现阶段只想把产品打磨得更好。

URL2io

2016-10-03 18:28:11 +08:00

@20015jjw Pageless 就是个教学示例而已啊 -_-|| ，不过用我们提供的正文提取 API 开发个 send to kindle 的应用也不难。

xiaoz

2016-10-04 09:21:20 +08:00

目前已经用接口撸了个小工具，非常感谢楼主，希望继续维护下去。另外贵方服务器是多台吗？会不会出现被屏蔽 ip 的情况。

URL2io

2016-10-04 22:16:53 +08:00

@xiaoz 感谢使用！会一直做下去的。即使是多台服务器屏蔽 ip 的情况还是会出现，接下去会针对这个可能出现的情况做相应的处理。

dphdjy

2016-10-05 07:31:02 +08:00

mark

前年找过类似服务，最后一个基于内容块的分析，还有一个是对不同页面做适配，然而用起来挺麻烦的。。。
看过悦读的源码，有点多就放弃了。。。

等 po 优化完成，再折腾

URL2io

2016-10-05 18:18:57 +08:00

@dphdjy 这一版的接口是不会变了，有空可以先折腾着 ^_^

URL2io

2016-10-05 23:12:01 +08:00

@jqw1992
@Warder 感谢支持！

第 3 页／共 6 页

上一页下一页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/309948

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX