redis 分布式爬虫你们有没有遇到跑了一段时间 在 redis 库中出现指纹和请求都消失了的情况吗?

2019-07-01 19:14:08 +08:00
 z1421012325

半夜跑一个爬虫,第二天起来发现已经关闭了,数据也没有抓很多,但是 redis 数据库中的指纹都没有了,不是不主动清楚不会给清掉的吗?

还有 如果出现一些问题,比如 ip 池抽风了 很久没有更新了,但是爬虫还在用这个, 出现一堆"远程主机无法连接"导致卡住,是不是程序会在一定时间(30 分钟)自动关闭啊?


更新一个问题 分布式爬虫,但是 redis 数据库中只有 requests,没有指纹是咋回事?没有改源码

主文件修改 http://i1.fuimg.com/691087/2aae1d23cd8fe1ea.png

settings 文件修改 http://i1.fuimg.com/691087/3d03a6e6d2c679f2.png

1906 次点击
所在节点    Python
6 条回复
z1421012325
2019-07-01 23:27:30 +08:00
更新--->>>>貌似是 redis 库的问题 爬了 4 个小时,最好 redis 库中的指纹消失了,我没与重启服务器过..
ebingtel
2019-07-02 08:46:06 +08:00
@z1421012325 是 redis 数据“库”的问题,还是 redis 客户端“库”的问题?
z1421012325
2019-07-02 13:29:03 +08:00
@ebingtel 分布式爬虫我的数据是放在 mongodb 中的,所以是存放指纹的数据库问题,

更新一下,爬了五个小时 之后再去看发现数据库中的指纹都没了..
yumenoks
2019-07-12 21:57:50 +08:00
只有我是用 aiohttp 撸简易的分布式爬虫吗?..
no13bus
2021-01-04 10:28:04 +08:00
@z1421012325 加个微信,聊聊这块?我的微信 no13bus
no13bus
2021-01-04 10:29:33 +08:00
@yumenoks 嘻嘻。能否加微信聊聊呢?我也正在写 python 相关的抓取逻辑

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/579053

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX