URL2io — 提供简单、强大的网页正文提取服务

2016-09-30 11:28:28 +08:00
 URL2io

URL2io.com — 提供简单、强大的网页正文提取服务

今天给大家分享的是一个网页正文提取服务 URL2Article ,主页地址:http://www.url2io.com

URL2Article 服务提供 RESTful API 接口,用来提取并解析网页中的正文区域,实现网页正文提取、标题提取、发布日期提取、下一页链接提取等。

功能列表

不仅仅是简单地提取 title 标签,而是智能识别网页正文的标题。

提取的内容将不含有任何广告、导航和其他非正文内容。网页正文中的所有链接、图片和其他媒体将予以保留。

智能识别文章的发布日期。

智能识别当前网页的下一页链接。因为一篇完整的文章会被分成多个页面,所以这个功能会非常有用。

Demo

demo 地址:点这测试效果。

API 使用文档

可以查看相关文档 (URL2Article API doc) 来了解如何使用。

示例应用

为了让大家近一步了解这项服务,我们写了一个教学示例 Pageless, 它使用 URL2Article API 来提取网页正文,并自动将被分成多页的文章合并成一页。
演示地址, 代码在 Github: url2io-app-samples

Feedback

That's all. 希望有兴趣的童鞋可以试用一下,然后给点反馈(使用中出现的问题、会用来开发什么、意见和建议等都可以)。 欢迎留言讨论,或者 url2#sina.com ,或者 QQ 用户群: 341180183

22149 次点击
所在节点    分享创造
102 条回复
livc
2016-10-01 21:13:21 +08:00
telegram 的正文不知如何提取的
URL2io
2016-10-01 23:10:53 +08:00
@livc 我记得以前 V 站有个帖子讨论过,好像是和 desc 有关的
URL2io
2016-10-01 23:22:03 +08:00
@15015613 贴吧、论坛之类的帖子其实可以理解为一篇文章的评论部分,所以从我们的角度来说这些帖子其实是没有正文的 -_-!
不过这种应该算是更广义的正文了,目前我们还没这个精力去做这方面的研究……
jqw1992
2016-10-02 10:27:22 +08:00
强大
iannil
2016-10-02 11:01:38 +08:00
微信公众号文章,图片全丢。
Warder
2016-10-02 13:32:20 +08:00
嗯,效果还挺不错
qianddream
2016-10-02 14:26:12 +08:00
@URL2io 知乎这种问答网站如何处理?
URL2io
2016-10-02 14:59:16 +08:00
@iannil 目前还不支持网页中惰性加载的图片,不过这部分和 URL2Images (开发中) 用到的技术有交叉,所以之后会加上对这个的支持。感谢反馈!
URL2io
2016-10-02 15:27:52 +08:00
@qianddream 仅从问答上来说,知乎有两类页面:

1. [https://www.zhihu.com/question/49658687]( https://www.zhihu.com/question/49658687) 用来展示提问者的问题,不过同时可包含了许多回答者的解答。形式上可以理解为一篇每个回复都比较长的帖子,正文的概念很弱。结果就是效果不一,无法评判。
2. [https://www.zhihu.com/question/49658687/answer/117123835]( https://www.zhihu.com/question/49658687/answer/117123835) 用来展示回答者对一个问题的解答。形式上可以理解为一篇博客文章,提取这种还是 URL2Article 比较擅长的。

所以,还是看使用者的策略吧,比如:从提问页提取出所有回答的链接,再用 URL2Article 提取出每个回答。
beidouxun
2016-10-02 16:28:04 +08:00
我最近对这方面很感兴趣。尤其是如何判断正文部分和发布日期的。我的网站后台必须填写相关规则才能提取。
URL2io
2016-10-02 20:45:08 +08:00
@beidouxun 用我们的产品呗,把精力放在你要实现的功能上 ^_^
xiubin
2016-10-03 08:20:40 +08:00
Mark ,打算写一个 RSS 阅读器,估计用的到。以后会有一直维护,和免费吗?
20015jjw
2016-10-03 09:12:41 +08:00
希望能 push 到 kindle
URL2io
2016-10-03 14:51:07 +08:00
@xiubin 请放心会一直维护的。对于免不免费还没考虑过,还早呢,现阶段只想把产品打磨得更好。
URL2io
2016-10-03 18:28:11 +08:00
@20015jjw Pageless 就是个教学示例而已啊 -_-|| ,不过用我们提供的正文提取 API 开发个 send to kindle 的应用也不难。
xiaoz
2016-10-04 09:21:20 +08:00
目前已经用接口撸了个小工具,非常感谢楼主,希望继续维护下去。另外贵方服务器是多台吗?会不会出现被屏蔽 ip 的情况。
URL2io
2016-10-04 22:16:53 +08:00
@xiaoz 感谢使用!会一直做下去的。即使是多台服务器屏蔽 ip 的情况还是会出现,接下去会针对这个可能出现的情况做相应的处理。
dphdjy
2016-10-05 07:31:02 +08:00
mark

前年找过类似服务,最后一个基于内容块的分析,还有一个是对不同页面做适配,然而用起来挺麻烦的。。。
看过悦读的源码,有点多就放弃了。。。

等 po 优化完成,再折腾
URL2io
2016-10-05 18:18:57 +08:00
@dphdjy 这一版的接口是不会变了,有空可以先折腾着 ^_^
URL2io
2016-10-05 23:12:01 +08:00
@jqw1992
@Warder 感谢支持!

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/309948

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX