V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
xiayibu
V2EX  ›  Python

大家抓取 1 万个网页需要多少时间

  •  
  •   xiayibu · Jul 25, 2017 · 6047 views
    This topic created in 3199 days ago, the information mentioned may be changed or developed.

    假设内容页文字和图片都有。

    24 replies    2017-07-26 04:06:07 +08:00
    cxbig
        1
    cxbig  
       Jul 25, 2017
    这么开放的问题叫人怎么回答…
    哪个网站?什么工具?什么带宽?手上有多少 IP ?制约因素太多了…
    binux
        2
    binux  
       Jul 25, 2017
    就我呆过的公司
    10 分钟到 100 毫秒不等
    XiaoFaye
        3
    XiaoFaye  
       Jul 25, 2017
    @binux 100 毫秒瞬间抓完 1 万个?高潮都没那么快吧。。。
    xiayibu
        4
    xiayibu  
    OP
       Jul 25, 2017
    如果是拨号 VPS 这种,开进程会不会被封
    ericbize
        5
    ericbize  
       Jul 25, 2017 via iPhone
    上次 1 核 1g 的阿里云,单线程程序 爬了 10w 张几 k 的图 用了一晚上。 其实不用介意用了多久,只要程序没毛病,晚上一开白天醒来就差不多了。
    am241
        6
    am241  
       Jul 25, 2017 via Android
    爬福利,不想被封,也不想对目标站造成压力,爬了一晚上
    est
        7
    est  
       Jul 25, 2017
    写爬虫不加上 sleep(5) 也敢号称分布式爬虫?
    caijihui11
        8
    caijihui11  
       Jul 25, 2017
    怎么爬福利啊,透露下
    faceair
        9
    faceair  
       Jul 25, 2017
    @XiaoFaye #3 百度的蜘蛛这点速度都没有吗 hhhh
    xiayibu
        10
    xiayibu  
    OP
       Jul 25, 2017
    @ericbize 你这样爬 没有被封或是网页断开链接吗
    ericbize
        11
    ericbize  
       Jul 25, 2017
    @xiayibu 我会告诉你我爬的是 验证码?
    pcdRob
        12
    pcdRob  
       Jul 25, 2017
    几分钟
    calpamomo
        13
    calpamomo  
       Jul 25, 2017
    看网速
    jugelizi
        14
    jugelizi  
       Jul 25, 2017
    10s 抓完
    然后发现全是脏数据
    XiaoFaye
        15
    XiaoFaye  
       Jul 25, 2017
    @faceair 百度的蜘蛛的速度我不怀疑,问题是人家的 Web Server 慢你也没办法是吧?本机 Ping 也要 0.0X 毫秒一次,一个 web 请求怎么也不会比这个快吧? 100 毫秒 1 万个有点悬呀。
    regicide
        16
    regicide  
       Jul 25, 2017
    @XiaoFaye lz 又没说对一个 server
    ReisenZ
        17
    ReisenZ  
       Jul 25, 2017 via Android
    抓过漫画站…因为是自己看就慢慢抓了…几个小时吧…
    xiaomacai
        18
    xiaomacai  
       Jul 25, 2017
    1s+,是不是可以 DDoS 了
    xiayibu
        19
    xiayibu  
    OP
       Jul 25, 2017
    几秒的那是爬取网页吗,跟攻击网站没有区别啊
    linus3389
        20
    linus3389  
       Jul 25, 2017
    ssd,或者 redis,下行 10m/s
    不要眨眼哦
    hihihihihi
        21
    hihihihihi  
       Jul 25, 2017
    看大小吧, 我本机上写的程序, 抓股票数据,3000 多只股票,3 种时间数据, 算下来差不多 1w 个请求, 用 gevent,30 秒左右全部拿下来, 下载的数据打包有 200 多 mb, 我家 100MB 带宽。要是整个分布式的,那就更快了。
    binux
        22
    binux  
       Jul 25, 2017
    @XiaoFaye #15 这是一个开放性问题
    WoodenRobot
        23
    WoodenRobot  
       Jul 25, 2017
    @jugelizi 一开口就知道老江湖了。
    wolffn
        24
    wolffn  
       Jul 26, 2017 via Android
    @4ever911 可以请问下在哪个网站爬的股票数据吗
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2868 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 78ms · UTC 15:40 · PVG 23:40 · LAX 08:40 · JFK 11:40
    ♥ Do have faith in what you're doing.