致最近在用十多台机器通过 python-requests/2.3.0 CPython/3.3.5 Linux/2.6.32-431.29.2.el6.x86_64 爬 V2EX 的某位同学

2014 年 12 月 10 日
 Livid
抱歉我们现在用的机器还不够高大上,你的这种爬法,确实会影响到目前我们网站的访问质量。

所以,只能把你的 10 几个 IP 全部封了。

今天早些时候,我们还封了 YisouSpider 的另外 10 几个 IP。

我可以理解你们想要从这里开采资源的心情,但是就算是开采,请用一些可持续的方式。不可持续的方式,是在浪费所有人的时间和你的资源。

8043 次点击
所在节点    V2EX
36 条回复
abelyao
2014 年 12 月 10 日
抵制一切爬站采集的行为!
我愿意在 v2ex 发帖交流,但我不愿意我发表的内容,被复制到一个我不知道的网站去!
Livid
2014 年 12 月 10 日
@abelyao 我们的回复一直在被很多网站用各种方式搬运。

不过,这些用偷懒的方式做起来的东西,一般都无法持续。

Karma 上的瑕疵,会让任何一件事情都很难持续。
tinyhill
2014 年 12 月 10 日
被爬了说明有价值,只能这么安慰自己。
whicily
2014 年 12 月 10 日
@Livid 请问一下 v2ex 是如何 block ip 的,iptables 么?
kurtrossel
2014 年 12 月 10 日
爬到数据也不会珍惜的,真能发掘出更大价值也算,各种滥用
Devin
2014 年 12 月 10 日
@Livid good job!
abelyao
2014 年 12 月 10 日
@Livid 真蛋疼,这些站就该倒闭光了才好。
之前在自己的网站 或 cnblogs 写过几篇热门博客,也都 “被发表” 到一些大论坛大网站去,有些好点的在角落里留个署名,大多数什么来源都没标注。
kmvan
2014 年 12 月 10 日
這并发略吊…

话说Karma是…?
jiang42
2014 年 12 月 10 日
就是说之前v2ex不稳定是爬虫的原因?
mortal
2014 年 12 月 10 日
@kmvan 业?
herozzm
2014 年 12 月 10 日
这个爬虫不合格啊,这个密集采集,都会被管理员K的
Showfom
2014 年 12 月 10 日
这爬虫太明显了吧。。。。
learnshare
2014 年 12 月 10 日
垃圾站:我们不生产内容,我们只是内容的搬运工。

互联网的内容不应该复制来复制去,有必要的话,一个链接过来就好了。<a> 不是互联网的核心?
raincious
2014 年 12 月 10 日
lincanbin
2014 年 12 月 10 日
这写爬虫都不知道换个baiduspider的header
xieguobihaha
2014 年 12 月 10 日
good job
abelyao
2014 年 12 月 10 日
@kmvan @mortal @raincious
话说有这么高大上的含义吗…?
我的理解还是简单的 “前因后果” 之类的,例如接上老大那句话就是 “根源上的瑕疵,会让任何一件事情都很难持续。”
matrix67
2014 年 12 月 10 日
不过贵站那个收藏回复值应该开放出来
Livid
2014 年 12 月 10 日
@matrix67 收藏回复值是指什么东西?
Ansen
2014 年 12 月 10 日
@abelyao 通俗点就是节操……

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/152913

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX