首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python 学习手册
Python Cookbook
Python 基础教程
Python Sites
PyPI - Python Package Index
http://www.simple-is-better.com/
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
V2EX  ›  Python

[爬虫与 5G] 5G 的到来会对爬虫速度有质的改变吗??

  •  
  •   WaJueJiPrince · 38 天前 · 5114 次点击
    这是一个创建于 38 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近的 5G 技术,炒的是非常火热,大家都在畅想着,5G 的到来会对什么行业有影响,会在哪个地方有爆发?

    我是写爬虫的,所以就联想到 5G 的到来,会对爬虫有质的提升吗?又会改变爬虫哪些地方呢? 经常写爬虫的朋友应该知道,爬虫的速度慢,关键在于爬虫是 I/O 密集型的。也就是当我们发出一个请求以后,需要等待响应的回归。所以对于 CPU 的利用不是太好,我指的是用 Python 来编写爬虫。由于 Python 的 GIL 全局解释器锁。所以,我们为了提高效率,可以采用多进程的方式,也可以采用多线程的方式,甚至采用协程的方式来实现爬虫。 听说 5G 的到来。网速有相当大的改善,据说一秒钟可以下载一个电影。

    • 那么这么快的速度,对于爬虫来说以后是不是意味着我们不需要编写“太好的”,异步代码或者是多线程代码。对于代码的要求,是不是就降低了呢。

    • 以后我们写的爬虫,问题是不是又集中在了 CPU 密集型了呢?以及验证码,IP 这些反爬措施上。

    91 回复  |  直到 2019-06-11 23:53:26 +08:00
        1
    slanternsw   38 天前 via Android
    有的没的。
    “爬虫的速度慢,关键在于爬虫是 I/O 密集型的。也就是当我们发出一个请求以后,需要等待响应的回归”
    “听说 5G 的到来。网速有相当大的改善,据说一秒钟可以下载一个电影。”
    来说说 5G 在价格延迟网速上哪一个可以打得过万兆有线?
        2
    chinvo   38 天前 via iPhone   ♥ 7
    @slanternsw #1 别问,问就低延迟高带宽,有线不存在的,光速轻易突破,是未来,是历史的车轮,你们这些螳螂是要被……
        3
    wateryessence   38 天前   ♥ 1
    你真的写过爬虫?
        4
    1OF7G   38 天前   ♥ 16
    吃瓜群众被无良媒体带节奏也就罢了,互联网从业人员对 5G 这样的认知也太不到位了吧!
        5
    strcmp   38 天前   ♥ 4
    既不懂爬虫也不懂 5G
        6
    leaflxh   38 天前   ♥ 2
    @chinvo 油炸
        7
    kawkeye   38 天前 via Android
    @strcmp 爬虫:5G/个,可用于合成光明之剑
        8
    Abbeyok   38 天前
    骗金币失败的例子
        9
    azh7138m   38 天前 via Android
    @chinvo 不用月底了,直接加急吧
        10
    WaJueJiPrince   38 天前
    @wateryessence 写过 并且还写过框架!!为什么木有速度的提升呢??
        11
    WaJueJiPrince   38 天前
    @Abbeyok 我只想知道原因 至于喷子就不要说话了 求解答疑问!!!!!!!!
        12
    WaJueJiPrince   38 天前
    @1OF7G 求解答原因 别过说其他没用的啊 一个个评论都是浅尝辄止 也给不出原因 就说没啥用??我想要的是结果 不是媒体带不带偏????没一个给出具体答案的啊???
        13
    Ley   38 天前 via Android
    看了你的描述,不过感觉爬虫和移动网络没有太大关系吧,比较好奇你为什么会认为爬虫依赖移动网络?
    另外一个个人的小建议是慎用超过三个感叹号,可能会影响阅读效率…
        14
    WaJueJiPrince   38 天前
    @slanternsw 您的意思是 5G 其实还是基于我们目前的有限网络吧?? 所以速度并不会提升
        15
    Cheons   38 天前 via Android
    ???你服务器用的移动设备
        16
    WaJueJiPrince   38 天前
    @Ley 我的了解目前 5G 速度较快 所以觉得目前可能这个速度会对爬虫比较有利 那是不是 5G 还是基于现有的有限技术?那么如果目前什么都不考虑,网站速度完全无延迟会不会对爬虫速度有提升呢?会不会降低协程 线程编程技术呢?
        17
    Cheons   38 天前 via Android
    2g 换 3g 3g 换 4g 和我

    打魔兽有关系嘛?
        18
    WaJueJiPrince   38 天前
    @Cheons 我的意思只是网速的增加会不会对爬虫编写代码要求有所降低呢?
        19
    WaJueJiPrince   38 天前
    看了一个消息就是 5G 的速度是要快于电信的 100M 光纤宽带的
        20
    HuLiY   38 天前 via Android
    不如把标题改成[高带宽低延迟下,爬虫将如何发展]因为 5g 再快也不如有线网络快。
    另,个人觉得网络再快也会使用多线程+分布式+代理。所以网络只能加快爬虫的速度,对爬虫的方式没有太多改变。
        21
    WaJueJiPrince   38 天前
    @HuLiY 是的 我的意思就是 [高带宽低延迟] ,可能有些描述不清吧 有些人就断章取义了 目前的方式绝对是线程 协程 分布式 反爬 验证码 IP 。。。。 其实爬虫要解决的问题还有很多呢
        22
    lanternxx   38 天前
    先不说 5G 到底能不能实现比有线延迟低速度快 然后再假设你的电脑也使用 5G 来上网 但是你要爬的服务器不还是有线接入?
        23
    wc951   38 天前 via Android
    5g 只是影响端到端,你服务器不走光纤走 5g ?
        24
    WaJueJiPrince   38 天前
    @lanternxx @wc951 可能我想的太完美了
        25
    good1uck   38 天前 via Android
    5g 的到来会提高人的学习速度吗

    一定程度上吧
        26
    mumbler   38 天前 via Android
    除非对方服务器无限带宽,爬虫才用得上 5G
        27
    lang1pal   38 天前
    万兆网线也带不起硬盘的 io 吧 硬盘的 4k 性能有限
        28
    boom7   38 天前 via Android
    你的爬虫部署在服务器上的话,是走的有线网络,与 5G 无关。再之,一般来讲爬虫应用单次请求的响应体都不大[视频爬虫之类的除外],你的爬虫的 io 等待时间主要取决于对方服务器的响应时间,相比之下带宽就显得不那么重要。
        29
    gamexg   38 天前
    @lang1pal #27 既然用万兆网了,那就上 ssd 吧。
    消费级 970 ssd 的读写速度已经能达到 3G/s 了。
        30
    gamexg   38 天前
    @lang1pal #27 4k 性能记不清了,但是印象也很高。
        31
    kera0a   38 天前 via iPhone   ♥ 1
    5g 再快也快不过有线啊,咋回事啊
        32
    luozic   38 天前 via iPhone
    无线 和你有线的云主机有关系? 有线的 100GE 网卡便宜了?!
        33
    botian   38 天前 via Android
    怎么不问问,爬虫技术什么时候被法律约束?
        34
    changz   38 天前
    要明白 5G 只是一种接入网技术而已。
        35
    changz   38 天前
    5G 的低延迟目前来说只是个伪命题,你并不能忽略网路中间节点的影响。
        36
    pxw2002   38 天前 via Android
    我感觉我的智商受到了侮辱
        37
    gunjianpan   38 天前
    hhh 你爬虫 不就是对人家带宽上限吗 对方服务器还是 1M 带宽你有什么办法
        38
    thua   38 天前
    5g 的网络,对于百度云的下载速度限制是不起作用的,爬虫也是,都是看服务端响应时间,而不是在互联网上的传输时间。
        39
    WaJueJiPrince   38 天前
    @gunjianpan 对方的宽带就 1M 确实没办法 不知道长远的未来会不会还是 1M
        40
    WaJueJiPrince   38 天前
    @thua 。。。黑的好!!!!!!!
        41
    WaJueJiPrince   38 天前
    @botian 爬虫触犯法律目前已经有一个案例了 盗取别人家的视频获刑 似乎是中国首例 还有一个什么公司 靠采集别人的简历 好像融资 1.5 亿 最后被一锅端 30 多人坐牢了
        42
    cz5424   38 天前 via iPhone
    越快越容易被 block
        43
    FrankHB   38 天前
    @chinvo
    螳螂会爬
    螳螂是虫
    螳螂也是爬虫
    (论证有力)
        44
    Northxw   38 天前
    (简单论述) IO 密集,多线程,5G,岂不是更加利用 CPU 资源,更加美滋滋?
        45
    Caan07   38 天前   ♥ 1
    家族群我堂弟说:哇,5G 快来了。5G 速度好快啊。

    我二姑爷说:5G 不用钱么?

    全群安静。
        46
    masker   38 天前 via Android
    ???网速影响实现代码?
        47
    lostberryzz   38 天前
    别问,问就是速度是 5G 最无聊的应用
        48
    binux   38 天前
    @WaJueJiPrince #10 你写的爬虫框架连 IO 都解决不了?
        49
    zwh2698   38 天前 via Android
    科普,通信网络是由核心网,接入网,用户设备, 简单说明。接入分有线和无线,核心网 10 多年没有变化了,变化比较多是接入网中的无线部分
        50
    zwh2698   38 天前 via Android
    所以大家觉得 5G 是通信网络中那部分呢??
        51
    zwh2698   38 天前 via Android   ♥ 2
    1.5g 说会出现大量网联设备,这说明没有 5G 的情况也有物联,不是大量对吧?
    2.大量会不会是伪需求?比如汽车连接电饭锅,你在路上的时候可以煮饭?请问锅里米谁洗?水谁放?电谁插?保姆呀,都有保姆,还要这个有用吗?
    3 让子弹飞一会儿。
        52
    wunonglin   38 天前
    @zwh2698 他们肯定会说 5G 来了肯定就会有具备自动放米、自动洗米功能的电饭煲,而且还能通过大数据精准放置多少米量 emmmmm,你信不信

    我要笑死了哈哈哈哈哈哈哈哈哈
        53
    locoz   38 天前 via Android
    这个问题挺有意思的,不过我认为对速度的影响并不大,等下到公司细说一下。
        54
    alamaya   38 天前
    写爬虫不是该跟人家反扒策略斗智斗勇?就现在的带宽你能跑满?
        55
    icharm   38 天前
    异步爬虫了解哈?
        56
    zwh2698   38 天前 via Android
    @wunonglin 其实我不是嘲笑 5G,我只是客观说明,这东西被包装过度,无非有人想要摸鱼,华为的任老大不是也说内部没有外面那么夸大,这是华为任老大说的,有视频的,都不要找我哈。我引用。 回到题主,题主这是有线接入,和 5G 一毛关系都没有。通讯延迟减小只是说明以前无线设备和无线接入这块有改善。和核心网速度一点关系都没,大油管如果很小,分支油管还能上天? 核心网将近 20 年都没变了,什么光纤改善,CPU 提升,内存速度快,理论上只是运营商节约了一点成本,其实也没节省。就像现在运营商都是 nfv,结构,nfv 的目的是为了省钱,但是现在其实比原来黑盒子更多 10-30%, 移动或者电信的朋友出来说说看。
        57
    abcbuzhiming   38 天前   ♥ 2
    楼主,你说你是写爬虫的?你难道没有被别人家的反爬虫措施整的欲仙欲死的经历?你居然认为阻碍爬虫的问题是网速和响应时间?你真的是写爬虫的?你不是在逗我?
        58
    lihongjie0209   38 天前
    哪怕没有网速的限制, 你觉得对方的服务器资源可以让你随意占用?
        59
    whwq2012   38 天前 via Android
    你说 ipv6 能提升爬虫的效率都比说 5g 好
        60
    kisshere   38 天前
    好多写爬虫的还主动降频,就是为了怕对方发现,你这思路清奇,即使对方毫无反爬措施,爬虫的进程数、解析 DOM 速度才是最大瓶颈,网速高有毛用
        61
    lupo   38 天前
    @zwh2698 目前有很多项目可能受限于当前的网速发展不起来,如果 5G 发展起来了。这些项目就能搞起来了。这个潜能是无限的,谁也不能承担忽视 5G 而导致的后果,所以美国疯狂打压华为。。。微软很早之前就做智能手机,做平板,但一直没有发展起来,感觉和网络速度有一定的关系。。
        62
    shuizhengqi   38 天前
    程序员的门槛真是越来越低了
        63
    rootww21   38 天前
    所以程序员并不是技术相关的都懂
    就和不是所有的程序员都会修电脑一样
    过分嘲笑就没意思了
        64
    402124773   38 天前
    @shuizhengqi
    低的有点可怕了,两个完全没有任何关系的技术,连基本原理都不懂一点的。
    看来有时候,很多人鄙视纯爬虫工程师是有点道理的。
        65
    zephyru   38 天前
    到现在,该回答的都有人回答了.我也不重复了...
    我看到题目的第一反应是在钓鱼...往后面看发现居然是认真的..
    还真别怪一开始几个人冷嘲热讽.不回答问题.也不是你想的太完美了..
    而是你书读太少了..但凡对网络组成有一丝丝的了解也不会问出这种问题...
        66
    soulmine   38 天前
    对速度没有 对数据量有质的改变
        67
    karllynn   38 天前
    楼主你这技术底子也太薄了吧,讨论个啥=。=
        68
    676529483   38 天前
    lz 是爬虫新人吧,爬虫难点不在于 IO,写异步的或者线程池都可以缓解,瓶颈在于反爬,甚至需要主动降低爬取频率;再说一般中小企业网站都 4M 带宽出口,你最高也就这速度了
        69
    skSK09   38 天前
    "由于 Python 的 GIL 全局解释器锁。所以,我们为了提高效率,可以采用多进程的方式,也可以采用多线程的方式,甚至采用协程的方式来实现爬虫。"
    IO 密集型的操作你可以认为和 GIL 没关系。
        70
    zjyl1994   38 天前
    等等,你的爬虫服务器不是放在机房里通过万兆光纤接入的吧?
    难道说你们现在的瓶颈在爬虫手机 4G 速度不够?所以期待 5G 带来质变?
    那这边建议你买个 G 口的 VPS 体验一下,绝对比手机上跑爬虫烧 4G 流量便宜,而且还快
        71
    zephyru   38 天前
    @rootww21
    修电脑和这种基础知识不是一类的...
    修电脑是技能..
    而网络组成是基础知识,但凡是写和网络有关程序的人都会接触到,他还是写爬虫的,这些不懂有些说不过去....
        72
    rootww21   38 天前
    @zephyru 说明初入行业,我一个运维也知道和 5G 没关系,虽然专业是通信
        73
    pkoukk   38 天前
    你不会在用 4G 流了来爬数据吧???
    5G 再快,最终也得汇到光纤主网上面去
        74
    wunonglin   38 天前
    @zwh2698 所以说现在都是政治吹捧,但是捧也要有点底线,现在这样好像在看傻子
        75
    unco020511   38 天前
    为什么 5G 会影响服务器?
        76
    dobelee   38 天前 via Android
    现在服务器千兆的大把,加钱也有万兆。
    哦不对,楼主用的是移动网络。
        77
    itskingname   38 天前 via iPhone
    速度从来都不是爬虫最关键的地方。
        78
    jseed   38 天前
    5G 到来,会影响我单手开保时捷吗!#手动滑稽
        79
    qinxi   37 天前
    @jseed #78 会啊.毕竟 5G 会带来无人驾驶
        80
    crawl3r   37 天前
    现在的爬虫瓶颈不就是在反爬对抗么?
        81
    jseed   37 天前
    @qinxi 你赢了
        82
    zwh2698   37 天前 via Android
    @lupo 第一我没说忽略 5G 发展,千万不能曲解,千万!我只是想说 5G 能干啥,估计炒作的人都没想清楚,所以让子弹飞一会儿。第二微软的失败不是因为网络吧。你去找找吴军的分析。
        83
    glfpes   37 天前
    LZ 就像个真信了亩产万斤的农民。
        84
    WaJueJiPrince   37 天前
    @676529483 仔细看看我之前的回复就知道了 我的意思是低延迟 而且你们可能认为有线技术一直是在服务器那端 这辈子都不会改变 我认为的任何事情都会改变
        85
    zwh2698   37 天前 via Android
    再次强调,5G 网络延迟改善,带宽增加和有线毛关系都没,这个只能提升无线接入到设备之间网络质量。如果要主干网路,除非有什么比光纤更快的。但是目前物理定律是不可能有超过光速的。那么就是光纤优化,让光子在内部尽量减少反射次数,最好做到直接到,这样应该就是理论上的光速了。现在光纤的传输速度小于光速。
        86
    killerv   37 天前   ♥ 1
    我怀疑楼主根本没写过爬虫
        87
    jeasonzuo   37 天前   ♥ 1
    我怀疑楼主根本不懂网络
        88
    sobigfish   37 天前   ♥ 1
    我怀疑楼主根本不懂木桶
        89
    msg7086   37 天前
    一秒钟就能下一部电影的移动网络价格,你拿去买固定有线网络,可以买到一秒钟就能下十部电影的。

    我们假设你跑出了 5G 应有的带宽的十分之一,也就是 100mbps,一个月下来跑了 32.4TB ,那 32.4TB 的手机流量是多少钱呢?好像有点超出我的知识量了。如果我们按照现在一元一 GB 的价格来算的话,是 32400 元。

    那么每月 32400 元能申请到什么样的有线网络呢?

    我陷入了沉思。
        90
    gscoder   37 天前
    5G 是移动网络,和固定网络木有关系,除非你的爬虫是跑在手机上
        91
    locoz   36 天前
    @locoz #53 补一下昨天说的这个,有兴趣的可以了解一下
    https://www.v2ex.com/t/572939
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   4088 人在线   最高记录 5043   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 32ms · UTC 02:49 · PVG 10:49 · LAX 19:49 · JFK 22:49
    ♥ Do have faith in what you're doing.