[求助] Scrapy 报错 KeyError: 'item'

如题,在写爬虫时,碰到这个错误使用的是 crawlspider 通用爬虫,下面是代码(先调用 parse_a,再调用 parse_b)

    name = 'crawl_spider'
    allowed_domains = ['baidu.com']
    start_urls = ['https://www.baidu.com']

    rules = (...)
    
def parse_a(self,response)
	...
    yield item  # item 定义省略
    yield scrapy.Request(url=url,callback=self.parse_b,meta={'item':item})
    
def parse_b(self,response)
	item = response.meta["item"]  # 获取 parse_a 传递过来的 item 对象
    print(item)
    ...

运行代码后报错如下:

Traceback (most recent call last):
  File "C:\Users\mypc\Anaconda3\lib\site-packages\scrapy\utils\defer.py", line 102, in iter_errback
    yield next(it)
  File "C:\Users\mypc\Anaconda3\lib\site-packages\scrapy\spidermiddlewares\offsite.py", line 29, in process_spider_output
    for x in result:
  File "C:\Users\mypc\Anaconda3\lib\site-packages\scrapy\spidermiddlewares\referer.py", line 339, in <genexpr>
    return (_set_referer(r) for r in result or ())
  File "C:\Users\mypc\Anaconda3\lib\site-packages\scrapy\spidermiddlewares\urllength.py", line 37, in <genexpr>
    return (r for r in result or () if _filter(r))
  File "C:\Users\mypc\Anaconda3\lib\site-packages\scrapy\spidermiddlewares\depth.py", line 58, in <genexpr>
    return (r for r in result or () if _filter(r))
  File "C:\Users\mypc\Anaconda3\lib\site-packages\scrapy\spiders\crawl.py", line 78, in _parse_response
    for requests_or_item in iterate_spider_output(cb_res):
  File "d:\Python_project\2019-08-18\novel\novel\spiders\crawl_spider", line 63, in parse_chapter_detail
    item = response.meta["item"]  # 获取前面传递过来的 item 对象
KeyError: 'item'

猜测可能是传递 item 哪里没搞对导致的错误

PS:使用 crawlspider 这样传递 item 是否正确?如果不对,应该怎么在不同方法间传递 item 对象?

viiii

2019-08-20 15:04:37 +08:00

@warcraft1236
以采集某小说内容为例,
首先在 parse_a 中获取标题 /简介 /作者等信息, yield 给 pipeline 存到数据表 a 中; 再将 item 传递给 parse_b
第二步, 获取章节正文,存到数据表 b 中 (由于章节正文页面不显示书籍标题,只有章节标题,所以存到表 b 中的时候,需要从 parse_a 里传递书籍标题到 parse_b 中)

基本流程就是这个样子,用 crawlspider 第一次遇到这个情况