URL2io — 提供简单、强大的网页正文提取服务

2016-09-30 11:28:28 +08:00
 URL2io

URL2io.com — 提供简单、强大的网页正文提取服务

今天给大家分享的是一个网页正文提取服务 URL2Article ,主页地址:http://www.url2io.com

URL2Article 服务提供 RESTful API 接口,用来提取并解析网页中的正文区域,实现网页正文提取、标题提取、发布日期提取、下一页链接提取等。

功能列表

不仅仅是简单地提取 title 标签,而是智能识别网页正文的标题。

提取的内容将不含有任何广告、导航和其他非正文内容。网页正文中的所有链接、图片和其他媒体将予以保留。

智能识别文章的发布日期。

智能识别当前网页的下一页链接。因为一篇完整的文章会被分成多个页面,所以这个功能会非常有用。

Demo

demo 地址:点这测试效果。

API 使用文档

可以查看相关文档 (URL2Article API doc) 来了解如何使用。

示例应用

为了让大家近一步了解这项服务,我们写了一个教学示例 Pageless, 它使用 URL2Article API 来提取网页正文,并自动将被分成多页的文章合并成一页。
演示地址, 代码在 Github: url2io-app-samples

Feedback

That's all. 希望有兴趣的童鞋可以试用一下,然后给点反馈(使用中出现的问题、会用来开发什么、意见和建议等都可以)。 欢迎留言讨论,或者 url2#sina.com ,或者 QQ 用户群: 341180183

22107 次点击
所在节点    分享创造
102 条回复
pandachow
2016-09-30 15:39:56 +08:00
是在 readability 基础上做的么?
xvx
2016-09-30 15:50:01 +08:00
我搜索了一下,发现有个效果比 LZ 的要好……不过不是开源的。 LZ 研究下。

http://www.weixinxi.wang/open/extract.html
gujiaxi
2016-09-30 15:57:26 +08:00
@URL2io 求 bookmarklet 。
URL2io
2016-09-30 17:50:22 +08:00
@Aether 习惯性向上卷,哈哈

@pandachow 不是在 readability 的基础上做的,不过 readability 可以说是所有正文提取算法的始祖,所以说和 readability 还是有关系的。
URL2io
2016-09-30 17:50:47 +08:00
@xvx 这个我在开发时也搜到过,也一直作为比较的对象。效果上来说他这个倾向于于获取更少的正文,所以看上去会简洁一点,不过对于一些奇怪的页面效果就不太好。我这个倾向于获取更多的正文,所以在头部偶尔会将多余的内容卷进来,不过普适性更好,遇到很奇怪的页面都可以提取。其实不同的人对一个页面正文的部分的定义是不同的,要在简洁与普适这两者之间进行权衡。
URL2io
2016-09-30 17:51:18 +08:00
@gujiaxi Pageless 的吗?

将书签的地址改为:

<pre>javascript:location.href = 'http://blog.url2io.com/url2io-app-samples/pageless/?url='+encodeURIComponent(location.href);</pre>

不过 Pageless 用的是演示用的 API 是有频率限制的,可以根据 Pageless 的源码再结合正式的 API 搭建一个。
Aether
2016-09-30 17:53:49 +08:00
@URL2io 可能要针对主要网站都做一遍优化?这可是苦力活儿,但也是值钱的活儿;但是你可以列一堆 logo ,表示「这些网站已特别优化」,让用户放心使用。
techmoe
2016-09-30 18:09:15 +08:00
做这个的思路是什么?计算页面占比最大的 div ?
URL2io
2016-09-30 21:11:35 +08:00
@Aether 确实是个苦力活儿。你这个建议很不错 ^_^
URL2io
2016-09-30 22:18:14 +08:00
@techmoe 思路点抓得很好,不过页面占比只是众多特征中的一个。如果有相关需求还是推荐使用我们的产品,肯定比自己写的好用 ^_^
designer
2016-09-30 22:26:10 +08:00
支持,是不是有点像 pocket 插件
missdeer
2016-09-30 22:33:54 +08:00
效果也就一般,比如我一直看的盗版小说页面 http://www.piaotian.net/html/7/7762/5084075.html 页脚都没去掉
alexapollo
2016-10-01 00:01:55 +08:00
斯坦福前两年有篇论文写的就是这个方法,简单粗暴,但是做起来估计也得有不少 dirty work
pandachow
2016-10-01 00:10:14 +08:00
@URL2io 之前给团队项目做过一个类似的功能,我开始是在 Readability 基础上改,后来从 evernote 的 clearly 插件源码中又学了一些奇技淫巧。总的感觉 dirty work 比较多,以及很多 tricks …
URL2io
2016-10-01 09:05:09 +08:00
@designer 对,不同的是,把类似于 pocket 的提取功能作为接口提供给开发者了,这样自己都可以做一个 pocket 了。感谢支持!
URL2io
2016-10-01 09:23:14 +08:00
@missdeer 还在改进中…… 果然我们的样本还是很有限的,感谢反馈!
URL2io
2016-10-01 09:29:55 +08:00
@alexapollo @pandachow

我大 V 站的水太深了,以后还请多多指教
blueset
2016-10-01 11:01:31 +08:00
建议抓取用的 UA 兼容一下其他搜索引擎蜘蛛的特征串(除了 Google )

部分用 JS 渲染内容的站点(比如我的)开启了根据 UA 判断针对 Bot 推送索引用全文的功能。这样提取起来也会方便些。

之所以说除了 Google 是因为 Google 的蜘蛛 Bot 可以解析渲染 JS 。所以很多类似的库就把 Google 排除在外了。
URL2io
2016-10-01 13:00:51 +08:00
@blueset 原来还有这样的技巧,我去试验一下,感谢感谢!
15015613
2016-10-01 21:02:02 +08:00
@URL2io
对几个百度贴吧的帖子试了一下,感觉效果不一
楼层数不定,大部分好像就提了个一楼
还有经常把百度加的广告也提了出来
另外,对于有图的贴子提取尤其的糟糕。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/309948

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX