有没有新闻通用爬虫?可以智能识别爬虫和标题?

2017-07-10 15:24:23 +08:00
 stcasshern
看了下一些收费 api 或者云爬虫可以做到提交网址返回正文,想请教下是个什么思路。
自己写爬虫都是针对一个站点定制 xpath 或者 css selector 规则,那这种通用的是怎么解决的呢?
1755 次点击
所在节点    问与答
3 条回复
bearsiji
2017-07-10 15:26:59 +08:00
bearsiji
2017-07-10 15:29:05 +08:00
https://github.com/GravityLabs/goose 还有这个 你的目的就是内容提取,常见的方法是 HTML 节点结构打分
stcasshern
2017-07-10 16:03:57 +08:00
@bearsiji 谢谢。学习一个

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/374278

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX