Colt 贴出了 CDN 流量。煎蛋真的经不起你爬

2017-10-31 15:09:28 +08:00
 congeec

链接: http://jandan.net/pic/page-297#comment-3600673
可以看出一个 ip 能占好多资源

讲道理,咱得有点良心对吧。人家煎蛋没咋盈利,真要倒了大家摸鱼都不自在。而且 tumblr 上的妹子多多了去了,经得起你玩,而且好多煎蛋上的妹子图都转自 tumblr。你要是一裤裆火憋不住的话,github 上还有硬盘女神

11989 次点击
所在节点    程序员
52 条回复
anyele
2017-10-31 16:56:41 +08:00
soulmine
2017-10-31 16:59:54 +08:00
恕我直言 把人家网站都爬垮的爬虫只能说明太次 无非是什么算法都不优化 一个页面来回爬十几遍 或者说爬起来内部逻辑死循环 一秒钟发了一千个请求 这些都是水平的差距 www
soulmine
2017-10-31 17:01:08 +08:00
还有这破站有毛线好爬的 虽说我是拿 B 和 zhihu 还有 tieba 当练手的 www
tumbzzc
2017-10-31 17:01:59 +08:00
还是爬 tumblr 吧,丢坟贴
https://www.v2ex.com/t/316337#reply49
jy02201949
2017-10-31 17:08:00 +08:00
次数多了,流量没看出多了很多啊
ctsed
2017-10-31 17:10:29 +08:00
@zpf124 他那只算了 html 页吧,几千几万张图片才 16m ?
dven
2017-10-31 17:18:20 +08:00
哈哈哈为啥大家爬的资源都是妹子图
hcnhcn012
2017-10-31 17:29:04 +08:00
年度大戏?
Osk
2017-10-31 18:12:37 +08:00
https://{username}.tumblr.com/api/read/json?start={startpostnumber}&num={showposts}
WordTian
2017-10-31 18:36:40 +08:00
30 日那天最多的那个爬了 105 万次,平均每秒 12 次多,丧心病狂啊
zmj1316
2017-10-31 19:22:35 +08:00
@ctsed 图片都是微博图床的
xenme
2017-10-31 19:29:30 +08:00
楼上好多厉害的爬虫老司机,合伙写个无影响又快速的煎蛋爬虫好了,或者直接官方出个压缩包,然后直接 BT 每天共享下载
litter123
2017-10-31 19:42:12 +08:00
@WordTian QPS 12,emmm......这很多吗? 105 万次是多了点,不过说实话,也就次数看起来多一点罢了,流量加起来跑了都没 10G 吧
olOwOlo
2017-10-31 19:54:18 +08:00
刚刚翻了一下这个网站,首页不到 3000 页,妹子图、无聊图不过 300 页,其他更少。讲道理整站爬下来估计 5000 次请求左右,更何况图片请求全部在微博上(怎么没人心疼微博?),像第二张图这种明显明显明显有问题的 IP 稍微有点反爬机制都能 ban 了,还是说 CDN 不提供防火墙功能么 = =
wisper
2017-10-31 20:05:33 +08:00
@olOwOlo 因为定期清理。无聊图现在基本保持 300 的留存度,原来是一年到两年清理一次,现在没有教养的没事爬虫一挂,想摸鱼的蛋友就刷不了。所以你们这么牛逼你们自己做个摸鱼的站点啊,非硬生生把人逼得骂脏话才显得你们牛逼大发了吗
wisper
2017-10-31 20:08:14 +08:00
@litter123 煎蛋非盈利,本来就是 sein 老大的个人 blog,后来慢慢成蛋友摸鱼的地方。你可以说 clot 做的慢不好让他女装,但是恶意爬虫这是生孩子没屁眼的行为。
WordTian
2017-10-31 20:28:30 +08:00
@litter123 哥们,爬虫不单是看流量的。高并发的时候,对服务器的 cpu 和内存资源消耗是很大。大公司招聘前后端程序员的时候,对这些东西的调优都会有一定要求的。

针对每个请求,服务器得处理,得读写数据,得把请求的资源返回,这消耗的都是服务器的资源。

而且那只是其中最显眼的一个爬虫,还有很多其他的爬虫,还有很多蛋友在正常浏览网站(不要小看蛋友的访问量)。整体的访问量还是很高的。

再加上煎蛋还是基于 wordpress 的站。。。

再加上站长投放的广告很少,盈利也不多,估计用的网站服务器性能也不咋地。。。
x7395759
2017-10-31 21:42:41 +08:00
我觉的 clot 还是有套路的,其实要 ban 爬虫就这么难吗,技术上解决不了?
MuaGeWang
2017-10-31 21:57:53 +08:00
@x7395759 都是走的 CDN,没有到那边服务器
banwagong
2017-10-31 22:45:38 +08:00
有没有大佬会做反代的?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/402279

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX