V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
adapalene
V2EX  ›  Python

大家是怎样爬取亚马逊(美国)的数据?爬取速度怎么样?

  •  
  •   adapalene · 2017-08-24 09:00:08 +08:00 · 6891 次点击
    这是一个创建于 2436 天前的主题,其中的信息可能已经有所发展或是发生改变。
    我在爬取亚马逊(美国)详情页时发现反扒虫比较厉害,因此购买了某代理爬取,但每天只能爬取 15w 条 ASIN 的数据。请教各位都是怎样爬取的?爬取速度如何?
    9 条回复    2017-08-24 21:42:37 +08:00
    JerryKwan
        1
    JerryKwan  
       2017-08-24 09:11:25 +08:00
    @adapalene amazon 的反扒机制是挺有意思的,如果有大量信息要爬取的话,不仅仅需要采用代理,还需要注意代理的使用策略
    free9fw
        2
    free9fw  
       2017-08-24 09:18:43 +08:00
    要注意请求频率和速度,amazon 上有很多 ajax 的数据,可以直接拉取
    huangfs
        3
    huangfs  
       2017-08-24 09:22:15 +08:00
    难道是昨天那个抓取外包的活?
    cqcn1991
        4
    cqcn1991  
       2017-08-24 10:18:31 +08:00 via iPhone
    我是数据量很小,大概 1w 条,所以基本不需要做反爬,控制时间就好了…
    nicktogo
        5
    nicktogo  
       2017-08-24 10:33:15 +08:00
    我好像前年这个时候也用 ASIN 爬过美亚数据(怀念当时做的课程项目 233 ),当时是用美亚的 API,楼主可以查查看
    adapalene
        6
    adapalene  
    OP
       2017-08-24 13:19:55 +08:00
    @JerryKwan 谢谢,能稍具体介绍下使用策略吗?
    adapalene
        7
    adapalene  
    OP
       2017-08-24 13:20:26 +08:00
    @huangfs
    不是,我已经爬了快 3 个月了
    adapalene
        8
    adapalene  
    OP
       2017-08-24 13:24:39 +08:00
    @nicktogo
    谢谢,我看下 API
    qq12345454
        9
    qq12345454  
       2017-08-24 21:42:37 +08:00
    我也想爬点数据,不过爬了不晓得怎么换钱
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1043 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 80ms · UTC 19:29 · PVG 03:29 · LAX 12:29 · JFK 15:29
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.