如果用 scrapy 抓取多个不同的站点放在同一个 spider 里,用下面哪种方法好点?

2019-09-27 19:45:28 +08:00
 python30

2970 次点击
所在节点    Python
2 条回复
gaojin
2019-09-27 23:52:22 +08:00
看解析规则吧,
如果规则都一样,就全部丢到 start_urls 里面最方便了
否则还是分开。。。
tisswb
2019-09-29 15:34:45 +08:00
除了 name 外 其他都做成需要输入的变量是可行的,比如:allowed_domains, start_urls, rules,以前做舆情蜘蛛就这么办的。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/604928

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX