scrapy 多站点爬虫问题请教

2018-09-17 10:22:08 +08:00

lixuda

目前需要：
有 1000+以上的网站需要爬，并且经常要增加减少。有部分网站是通用类型，直接通过摘要提取 html 内容，不用 xpath。部分需要自写 xpath 提取。不需要分布式。
抓取的只要标题，内容，图片。

对 scrapy 刚接触，网上搜索下，有以下方式：
1.自定义项目命令
2.process.crawl 方式
3.Scrapyd 方式

现在个人想法是
所有网站都用一个 scrapy 来做，通用 items，每一个网站写一个 spider 蜘蛛，通用的网站用一个 spider。

问题：
1.是否 scrapy 适应以上任务。
2.如果合适，怎么样的项目方案合适？同时要启动多个 spider，怎么样方式合理？
谢谢

3148 次点击

所在节点

Python

5 条回复

simonliu2018

2018-09-17 10:38:23 +08:00

>有 1000+以上的网站需要爬，并且经常要增加减少
把这些网址存在数据库里，定期重启 spider 来加载到 start requests 里

>有部分网站是通用类型，部分需要自写 xpath 提取
自定义几个 middleware 区分不同的业务；也可以写不同的 spider

>同时要启动多个 spider
我之前是写一个小工具来生成多个 spider 启动脚本，用 daemontools 管理这些脚本

raysmond

2018-09-17 12:16:22 +08:00

scrapy-redis 了解一下，spider 常驻了，start_urls 放在了 redis 里，需要抓取时塞进去

lixuda

2018-09-17 14:56:40 +08:00

@simonliu2018 好的，谢谢

chengxiao

2018-09-17 14:59:12 +08:00

@raysmond 要抓多个站点的话或者多个 spider 的话, scrpy-redis 该怎么部署呢?

lixuda

2018-09-17 17:11:46 +08:00

@simonliu2018 感谢，另外通用型的网站 LinkExtractor 要增加，其他都是一样

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/489971

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.