Python 爬虫时如何高效的链接去重

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 2786 天前的主题，其中的信息可能已经有所发展或是发生改变。

第一步，爬取链接存储到 MongoDB 中第二步，爬取每个链接的详细信息，存储爬取成功的链接及信息

第二步爬取的过程不会很顺利，有时需要计算未完成的链接，再进行爬取，我目前是这样处理的把第一步的链接存储在 list 里，再转成集合（ set) 把第二步的链接存储在 list 里，再转成集合（ set) 未完成的链接 = 第一步的 set - 第二步的 set

遇到的问题是，如果链接数比较小的时候，这样处理速度比较快，当链接数达到几百万时，这样处理的速度不是很理想，请问有没有高效的处理方法呢？

链接

set

存储

list

12 条回复 • 2017-03-16 11:13:38 +08:00

regicide

2017-03-16 09:03:35 +08:00

用 redis 去重比较粗暴

Tucao

2017-03-16 09:06:28 +08:00 via Android

https://llimllib.github.io/bloomfilter-tutorial/

caixiexin

2017-03-16 09:07:45 +08:00 via Android

布隆过滤器

JasperYanky

2017-03-16 09:11:17 +08:00

最近在爬一个站，第一步的数据存数据库了, django 下面放一个 scrapy 存取去重很方便，第二步用第一步的数据，使用 celery 的 task 定时爬取我的第二步是下图片所以开了好几台小机器分开下载的，下载结果直接修改主数据库；缺点是数据库访问有点频繁，负载有点高~ 感觉 django + scrapy + celery 做类似的项目简直是爽~