如果爬取的网站源有几百多个,如何用 Python 建立爬虫?

2018-07-10 15:22:44 +08:00
 xanthu
需求有几百多个站点要爬,不可能每个站点都用 Scrapy 写一个爬虫吧?

有没有什么有效的解决方案?
1543 次点击
所在节点    问与答
4 条回复
gitopen
2018-07-10 17:02:43 +08:00
scrapy 可以写多个爬虫,自定义命令后可启动多个爬虫进行爬取。。。。
xanthu
2018-07-10 17:42:18 +08:00
@gitopen ....有 700 多个站,每个站都不同
yrj
2018-07-10 18:14:45 +08:00
我想楼主是需要一个可以泛解析出内容页文章主体内容的库,我记得 python 有几个这样的库,但貌似准确率都不太高,我也一直在纠结这个问题。
cyspy
2018-07-10 23:15:23 +08:00
pocket 或者 instapaper 能不能做中转?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/469603

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX