听说你们把煎蛋爬趴下了,于是我也爬了一下发现没多大数据量,就很不理解

2017-10-30 20:59:06 +08:00
 mdzz

爬虫比较简单,比较快就写好了,爬的过程中遇到了反爬策略, 大约 50 个请求之后就会 403, 于是给请求分组,一组 50 个,组与组之间间隔 60 秒,就没有再 403 过了。


下面是抓取过程中一组共 50 个请求的网络流量图

约 10KB/s 的流量大约持续 30s 左右,一组流量约 300KB。


总共爬了三个版块,妹子图、无聊图和段子

共计 14 组,若按一组 300KB 计算,不超过 5MB,抓取总时间需要约 20 分钟。


下面是抓取后的数据库,数据库不到 16MB (抓取过程启用了 gzip,故网络流量远小于最终数据库大小)


我就不明白了,怎么就把煎蛋爬趴下了?怎么就爬趴下了?爬趴下了?

11905 次点击
所在节点    程序员
73 条回复
takanasi
2017-10-30 21:02:47 +08:00
又不是只有一个人爬,况且首页你还没爬呢
Keyblade
2017-10-30 21:53:23 +08:00
花式自挂
green15
2017-10-30 22:03:17 +08:00
不理解就好好读书,别乱爬,脏!
zjyl1994
2017-10-30 22:28:42 +08:00
我就不明白了,我就双十一买一件衣服怎么就把淘宝买崩了。(全国又不是你一个人在爬,好多新手都折腾煎蛋。。。)
zhijiansha
2017-10-30 22:57:48 +08:00
能否分享下爬虫代码?
siyemiaokube
2017-10-30 23:15:25 +08:00
大概是五楼这种比较多
cnyang
2017-10-30 23:17:19 +08:00
@siyemiaokube 哈哈
hugee
2017-10-30 23:20:59 +08:00
煎蛋技术能力有限吧,2333
pynix
2017-10-30 23:43:20 +08:00
你们把人家爬挂了
zlfzy
2017-10-30 23:51:36 +08:00
爬这些老图不如爬汤
stebest
2017-10-31 00:27:54 +08:00
有多少人梦想过全国人民给他捐一块钱
changwei
2017-10-31 01:15:28 +08:00
热图访问人数多,cdn 有缓存应该会稍微好一点吧,老图的话没有缓存都是要回源的,可能更容易爬跨人家网站。
bxb100
2017-10-31 01:18:35 +08:00
额,什么时候请求数和网络流量关联在一起了
Perry
2017-10-31 02:48:07 +08:00
楼主你要是分享了代码,煎蛋说不定就真的要挂
opengps
2017-10-31 07:37:38 +08:00
都不能好好的看图嘛?
taresky
2017-10-31 07:41:25 +08:00
ID 贴切
kaifeii
2017-10-31 07:51:00 +08:00
你们天天这么搞,干脆煎蛋做个开放 api 卖钱得了,或者做个延迟同步的共享读库
cyn
2017-10-31 07:57:25 +08:00
煎蛋是什么
Ryosan
2017-10-31 08:06:43 +08:00
id 如本人
chnyang
2017-10-31 08:17:22 +08:00
@cnyang。。。你好混 ID 的同志

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/402058

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX