URL2io — 提供简单、强大的网页正文提取服务

2016-09-30 11:28:28 +08:00
 URL2io

URL2io.com — 提供简单、强大的网页正文提取服务

今天给大家分享的是一个网页正文提取服务 URL2Article ,主页地址:http://www.url2io.com

URL2Article 服务提供 RESTful API 接口,用来提取并解析网页中的正文区域,实现网页正文提取、标题提取、发布日期提取、下一页链接提取等。

功能列表

不仅仅是简单地提取 title 标签,而是智能识别网页正文的标题。

提取的内容将不含有任何广告、导航和其他非正文内容。网页正文中的所有链接、图片和其他媒体将予以保留。

智能识别文章的发布日期。

智能识别当前网页的下一页链接。因为一篇完整的文章会被分成多个页面,所以这个功能会非常有用。

Demo

demo 地址:点这测试效果。

API 使用文档

可以查看相关文档 (URL2Article API doc) 来了解如何使用。

示例应用

为了让大家近一步了解这项服务,我们写了一个教学示例 Pageless, 它使用 URL2Article API 来提取网页正文,并自动将被分成多页的文章合并成一页。
演示地址, 代码在 Github: url2io-app-samples

Feedback

That's all. 希望有兴趣的童鞋可以试用一下,然后给点反馈(使用中出现的问题、会用来开发什么、意见和建议等都可以)。 欢迎留言讨论,或者 url2#sina.com ,或者 QQ 用户群: 341180183

22056 次点击
所在节点    分享创造
102 条回复
geeglo
2016-09-30 11:37:47 +08:00
我反正是没这需求,自己解析也挺方便的
leilux
2016-09-30 11:47:21 +08:00
@geeglo 如果要解析的页面非常多的话还是挺恼火的,而且页面结构变了的话还得重新分析。有这种自动化的服务还是挺好的^_^
DoraJDJ
2016-09-30 11:52:26 +08:00
用自己的 blog 试了一下,好像连头像都不小心给抓到了 23333
jy02201949
2016-09-30 11:55:37 +08:00
不错不错,想当年刀耕火种的年代,用雅虎的 pipe ,之后是自己写代码,如今已经开始自动化了
URL2io
2016-09-30 12:31:59 +08:00
@DoraJDJ 你这个巨型弹幕有点凶残啊!哈哈哈
tscat
2016-09-30 12:35:05 +08:00
收藏一下,午休后看看。希望比有道的好用
URL2io
2016-09-30 12:46:40 +08:00
@jy02201949 看来是老司机了,自动化之后能做的事就有意思了,比如 URL2Article 与 pipe 的结合
wuyadong
2016-09-30 12:47:26 +08:00
下一页连接,是怎样识别的呀,能否大致告知一下。谢谢
URL2io
2016-09-30 12:54:45 +08:00
@tscat 可以使用我们提供的接口将网页的正文提取出来,再发到有道笔记里
doubleflower
2016-09-30 13:05:32 +08:00
这个攫取服务器是在国内还是国外的?
URL2io
2016-09-30 13:06:50 +08:00
@wuyadong 大致的假设是本页链接与下一页链接的网址不会相差太大,应该有一个特定的模式。通过收集大量网站的下一页链接,做特征工程,再通过机器学习训练和预测下一页链接。只能讲这么多了 -_-

如果有相关需求还是推荐使用我们的产品,肯定比自己写的好用 ^_^
doubleflower
2016-09-30 13:08:19 +08:00
好象不灵啊,比如这样的:

https://zhuanlan.zhihu.com/p/22597353
URL2io
2016-09-30 13:18:03 +08:00
@doubleflower 知乎专栏这种通过 ajax 加载内容的网页暂时还不支持,要渲染 js 的开销太大了。

它的[接口]( https://zhuanlan.zhihu.com/api/posts/22597353)还是挺好找的,不过现在还没有找到一种高效、普适的方法就没有处理这种情况。
iyaozhen
2016-09-30 13:20:47 +08:00
挺不错的。赞
doubleflower
2016-09-30 13:20:56 +08:00
@URL2io 先用普通方式抓,发现没内容就用浏览器方式。
URL2io
2016-09-30 13:45:02 +08:00
@doubleflower 用浏览器方式是指加上 User-Agent 吗?也不行啊。它的内容是靠 js 加载的,也就是说如果浏览器禁用了 js ,那直接用浏览器访问都没有内容。

Google 的爬虫可以收录 JS 和 CSS 内容,用的方法好像也不是全部渲染,不知道怎么实现的......
doubleflower
2016-09-30 13:51:52 +08:00
@URL2io 用这种 http://phantomjs.org/ 现在的很多网页爬虫就是这么搞的。
URL2io
2016-09-30 14:14:10 +08:00
@doubleflower 感谢感谢
leilux
2016-09-30 15:33:41 +08:00
提取结果还是挺准的,赞一个
Aether
2016-09-30 15:35:11 +08:00

抓 V2EX 的时候……

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/309948

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX