爬虫写得好,坐牢坐到老。现在大家还敢干爬虫的活吗?

2020-04-25 20:53:03 +08:00
 suanbing
在谈的外包项目,有几个是爬虫的。

犹豫要不要接。今年接活很难,想挣点钱。

但现在好像爬虫项目都有一定的风险。
16691 次点击
所在节点    程序员
85 条回复
mmixxia
2020-04-26 09:31:21 +08:00
风险很大
flyz
2020-04-26 09:32:36 +08:00
@Rxianbei 很多公司要开无犯罪证明
hevi
2020-04-26 09:42:18 +08:00
。。。我写爬虫都是爬盗版网站的,而且爬来也不商用
7654
2020-04-26 09:43:28 +08:00
数据需要帐号登录才能获取的,都可以算 XXX
Vegetable
2020-04-26 09:44:29 +08:00
@hevi #22 这不就是小说盗版网站互相爬吗哈哈
binux
2020-04-26 09:57:42 +08:00
在美国做爬虫,我们都会和客户签免责协议,说是代客户爬,客户自行承担风险。
我是没怎么听说在美国,爬虫程序员有什么风险,EFF 还帮站台呢。
再说了具体实施也是印度人做的,怕啥。

不过我们也没有做中国市场,一来中国的反爬技术自成一体,还没有下定决心投入;二来我也怕刚下飞机就被扣了。
fank99
2020-04-26 10:01:02 +08:00
爬国外网站的公开信息路过。。
zdnyp
2020-04-26 10:28:47 +08:00
害,干会计做个内外帐要是想查你你也得进去,看清红线
Cmdhelp
2020-04-26 10:46:25 +08:00
兄弟,国内盗版泛滥都还没治理好呢,谁去管爬虫呢。。。。。。。。。。。。。。。除非你给人造成巨大损失,或者非法获取数据,不然还是没人管的
jdgui
2020-04-26 10:50:27 +08:00
@Cmdhelp 关键是你是外包的,你爬了数据之后,你也不知道人家怎么用你的数据。。
licoycn
2020-04-26 10:50:44 +08:00
应该是不要通过手段绕过别人的限制就可以,即目标站点的数据本身就是公开访问的,换种说话,就是你用爬虫来代替你的手工操作,如果你的频率过高,那就相当于 CC 攻击了
Cmdhelp
2020-04-26 10:57:55 +08:00
@jdgui 只要不包含公民隐私信息,基本没啥问题,如果有这些,那出事了 都别想跑
winnerczwx
2020-04-26 10:58:57 +08:00
@licoycn 比较在意改 ua 算不算绕过限制
iConnect
2020-04-26 11:00:46 +08:00
@zhybzc 伪造 referrer 爬取文件,也算违规吗?
anxiousPumpkin
2020-04-26 11:36:13 +08:00
我之前爬过一些电影网站的信息,速度太快了 ip 就会被暂时禁用。
我在想如果你把爬取频率降下来再加上这些信息本身就是公开的,应该也没人管你吧。
zictos
2020-04-26 14:08:38 +08:00
@taizhenhua1987 头条现在的数据应该大部分都是用户生成的吧。当然即便头条是爬的,你能让他被抓吗?只有大公司能叫人抓普通人,哪个普通人能叫人抓大公司的人的?特别是像这种法律界定不清的事情,大公司往往是比较安全的,大公司真的侵犯了别的权益,其他公司也往往最多只敢提起“民事诉讼”,怎么可能直接叫人抓人?
zictos
2020-04-26 14:10:55 +08:00
@murmur 是的,各种各样的理由都有可能。人人自危,什么都不敢做
zictos
2020-04-26 14:13:52 +08:00
@iConnect 反正法院的判决理由中有这么一条,所以风险是存在的。严格按法律来说肯定不算,只是你如果得罪了某些大公司就难说了。大公司有时候往往能力通天,参考鸿茅药酒案和华为事件和 pandownload 事件
fancy111
2020-04-26 14:17:52 +08:00
这个真不好说,企查查靠爬虫都能起家,有的爬着爬着到监狱了。。。
tabris17
2020-04-26 14:23:02 +08:00
@zhybzc 伪造 UA 要坐牢的话,除了 Firefox,所有浏览器作者都要坐牢了——Mozilla/5.0 (xxxxxx)

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/666057

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX