发现一个很 awesome 的网站

2017-10-11 11:50:10 +08:00
 LichMscy
https://mercury.postlight.com/web-parser/

号称可以直接拉到 HTML 的文章内容正文的数据,测试了很多资讯站基本上都覆盖的比较完美。
不过感觉不太可能是手动覆盖了这些测试站点的样式,所以应该用的算法之类的实现。

大家有相关的资料可以参考下吗?对这个非常感兴趣
1859 次点击
所在节点    问与答
5 条回复
cubelate
2017-10-11 11:57:35 +08:00
有意思,可能是通过判断位置,z-index,大小之类吧。把自己当做浏览器,分析最前面最大块的内容。
airycanon
2017-10-11 12:04:09 +08:00
@kenshin 感觉简悦可以借鉴一下,处理不在支持列表中的网站。
ygger
2017-10-11 20:08:21 +08:00
这是我的一个正文提取器: http://kandouban.top/extractor
ygger
2017-10-11 20:15:03 +08:00
kenshin
2017-10-12 09:22:41 +08:00
@airycanon
之前有参考过这个,但它是传到服务器处理。
即将发布的 1.0.4 基本上可以覆盖全部的页面了。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/396716

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX