爬 gov cn 网站上的公开数据然后交给大模型向量化处理,是否有风险

2024-06-26 12:06:44 +08:00
 jerrry

个人感觉有两个风险

所以有点犹豫。如果只是参与这个项目的其他部分,不涉及爬虫这块,是否有风险呢?

3648 次点击
所在节点    问与答
29 条回复
povsister
2024-06-26 12:18:24 +08:00
你这个想法很刑,还主动传出境外,那还能更刑
wbrobot
2024-06-26 12:21:15 +08:00
直接说结果:无期
4BVL25L90W260T9U
2024-06-26 12:33:45 +08:00
刑与不刑,即和法律没有关系,也和爬虫没有关系。人在境内,最安全的就是搞国外的数据;想搞国内的数据,最安全的方法就是肉身润。

理论上来说,公开的数据当然随便爬了,但是至于实际执行,懂的都懂吧。就技术角度而言,你用国外的服务器爬,其实也很难追溯,但是技术总是有漏洞,代码总是有 bug 的,也说不准。

实际情况来说,如果是你自己爬了少量数据用,放心搞就好了,没人 care 。真正会被盯上,一定是经济或者政治上产生了一定的影响,比如承德的程序员。
1145148964
2024-06-26 12:34:51 +08:00
其实很多网站在境外打不开的。或者网速奇慢无比。墙是双向的。
yyzh
2024-06-26 12:38:58 +08:00
深圳的话这里有不用爬
https://opendata.sz.gov.cn/
另外爬虫是犯法的
wonderfulcxm
2024-06-26 12:44:06 +08:00
不被发现就没有问题
jerrry
2024-06-26 13:03:13 +08:00
@ospider 是一个兼职项目,所以我在想有没有必要承担风险
duanxianze
2024-06-26 13:44:11 +08:00
这东西抓不住你就没事,抓住了你必进去
AnonymousUser
2024-06-26 13:44:15 +08:00
第一点,数据类型和量级吧。你要是爬一些统计数据,比如财政、产业数据应该还好。如果是法院判例、税务之类可能敏感点?因为涉及到具体个人/公司。
第二点,太敏感了,建议好好考量风险和收益
signin
2024-06-26 13:56:57 +08:00
公开数据,随便拿,不要听楼上胡说,但要把握一个度,就是尽量不要把网站爬挂了
Features
2024-06-26 13:59:36 +08:00
就怕是披着羊皮的狼
表面包装成大模型,实则是间谍项目。。。
ivvei
2024-06-26 14:00:50 +08:00
有的是汇总了公开数据被当间谍处理的。
YDCHYD
2024-06-26 14:43:35 +08:00
只要你肉身在国内,哪天被地方网警翻到这个帖子,你就是业绩。
国内即便是公开的数据也不允许合订本出现,更遑论你爬数据给境外。
jerrry
2024-06-26 15:46:02 +08:00
谢谢大家,看来感觉还是有风险的
nx6Ta67v2A43frV2
2024-06-26 16:55:38 +08:00
ZF 网站一般会脆弱,访问量稍大就会挂。
如果爬的过程中挂了,可能会导致蹲苦窑。

国内有先例,有公司爬深圳的 ZW 网站上的公开数据。
但是程序写有 bug ,出现死循环,导致以近 100qps 的频率访问这网站。
最终把网站打挂了,事情发生在周末,无人恢复,网站挂了一整个周末。
引起了很多市民的投诉,最终,技术总监和程序员都进去了。
27
2024-06-26 17:10:25 +08:00
xie8fei
2024-06-26 18:28:34 +08:00
事小罪大
且不说盈利多少,行为犯没收益都会可能判。
当然也可以赌,赌输了就刑事
amon
2024-06-26 18:33:50 +08:00
咨询律师,不管是全职还是兼职,有些底线不要碰。

我真的见过写程序(灰产)进去的,关到过年才放出来。
aminobody
2024-06-26 18:35:33 +08:00
@yyzh #5 403 403 Forbidden
Request forbidden by administrative rules.
yyzh
2024-06-26 19:05:22 +08:00
@aminobody 你在外国?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1052719

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX