想问下,这个问题如何解决啊?
用的是 mongo 数据库
ITEM_PIPELINES 设的是 300
|  |      1bnm965321      2020-03-12 10:05:25 +08:00 看下停下来的原因是为什么 | 
|  |      2bnm965321      2020-03-12 10:05:58 +08:00 ITEM_PIPELINE 我记得是设置 优先级 的,就是这个 PIPELINE 优先被使用 | 
|      3python30      2020-03-12 10:16:12 +08:00 是规则漏掉了那 9000 还是其它什么原因。 先少采点。 采 100 条看看能实际采多少。 这样分析就好办些了 | 
|  |      7U7Q5tLAex2FI0o0g      2020-03-12 10:30:45 +08:00 啥都别说,帖代码 | 
|  |      9IanPeverell      2020-03-12 10:46:09 +08:00 可以把每一次请求都打一个日志出来,看是到哪个断掉的。再看看有没有报错信息,是不是写数据过程出问题了,或者连接超时了,实在不行就写多个爬虫来处理,每个爬虫只请求 1000 个。 | 
|  |      10sadfQED2      2020-03-12 10:56:56 +08:00 少量能抓到,大量抓不到,目测,你 ip 被封了 | 
|  |      11aaa5838769      2020-03-12 11:05:33 +08:00 要不是代码,要不就是被检测到了。 | 
|      12Colorful OP @IanPeverell 怎么打印日志啊? | 
|  |      13IanPeverell      2020-03-12 11:27:30 +08:00 @Colorful scrapy.Spider 自带 logger,直接 self.logger.info()就可以。也有可能是请求过于频繁,可以在 settings 里面加上 AUTOTHROTTLE 的配置 | 
|  |      14vindurriel      2020-03-12 11:39:54 +08:00 感觉这个很适合做面试题啊 q: Scrapy 爬虫的停止条件是 10k urls, 为什么爬到 1k 就退出了? db 用 mongo a: 我不可能知道 (只有这么点信息就能给出答案的就不用继续面了) q: 那我换一个问题 掌握哪些信息有助于知道呢? a: 你的输入条件(网站拓扑、配置详情、反爬规则),处理过程(代码、日志、系统事件),输出结果( 1k 的 urls 和剩下 9k 的异同) q: 这些信息的价值有没有主次之分?如果只能知道其中三个 你会选啥? a: 日志 配置 反爬规则 q: 如果怀疑是被反爬规则 ban 掉了 如何验证或绕过? a: 换 ip,降频率,分批爬 q: 如果让你写爬虫 如何设计日志 /接口 /配置项目 让使用者能更快地定位问题? a: ...(开始 freestyle ) | 
|      15luckyc      2020-03-12 12:27:31 +08:00  1 我去, 这问题问的, 我都想骂人. BLOCK 带走. | 
|  |      16vcode      2020-03-12 12:34:56 +08:00 简单,可以先用排除法,我们请楼下来排除一下 | 
|  |      17jugelizi      2020-03-12 12:40:45 +08:00 via iPhone 论提问的技巧 | 
|      18Colorful OP @vindurriel 涨知识了,感谢 | 
|      19Colorful OP @IanPeverell 懂了,谢谢 | 
|      20lc7029      2020-03-12 13:51:13 +08:00 运行十次就好了 | 
|  |      22IGJacklove      2020-03-12 14:28:11 +08:00 爬虫违法吗?。。。现在在爬其他公司得视频信息。。。这个会不会出问题? | 
|      23xingshu1990      2020-03-12 14:46:30 +08:00 大概率是 IP 封了:建议能保证完全适配抓取的前提下,接入阿布云等 daili。 | 
|  |      24no1xsyzy      2020-03-12 15:30:26 +08:00 因为楼主描述太不清楚,导致我的老二被卡在电风扇里了 | 
|      25somewhereinmars      2020-03-12 17:14:35 +08:00 用 puppyteer  吧,属于前端模拟爬虫,更加容易突破,支持 js、python 各种扩展 | 
|  |      26WoStaring      2020-03-12 17:16:28 +08:00 再爬 9000 条 | 
|      27chanywn1      2020-03-12 17:17:41 +08:00 很简单,再爬 9 万条就可以了 | 
|      28Elio      2020-03-13 10:01:02 +08:00 这问题不问问你自己可惜了 | 
|      29Skyline57      2020-05-19 17:40:55 +08:00 @IGJacklove 绕过对方网站反爬手段就算违法,这得看对方发没发现,追不追究。当时用 selenium 那些模仿人浏览网站的行为好像不违法 |