实习生接到爬虫任务怎样才能让自己避免牵扯到可能的法律纠纷里?

288 天前
 Fffys

坐标欧陆,最近找了个任务为网站爬虫的美国小公司在本地的分公司的线上实习,我注意到很多要爬取的网站都在服务条款里明确声明了禁止通过爬虫等自动化方式获取网站数据,且这些网站都没有提供 API ,我在 WhatsApp 里问了雇主是否已经获得了网站相关人员的许可,回复说是,我保留这样的截图,这样就足够了吗?我无法确定是否真的有合法的许可,我要怎样才能避免自己受到可能的法律纠纷、承担可能的连带责任呢?我是否要向雇主请求更多的文件?我要请求什么文件?已经问了 ChatGPT 了,但是担心可能有的回复是幻觉,所以想在这里再问一次

2734 次点击
所在节点    职场话题
23 条回复
Fffys
287 天前
@zzNaLOGIC 现在改为只爬取 free use 和 提供 API 的网站了,并且说不会有商业用途,这样是不是就没问题了?只要我注重有的网站有关 API 的限制之类的?恩?不过?这样好像什么也学不到啊?这种事把 API 文档丢给 ChatGPT 都能完成,是不是换个实习更好?
Fffys
199 天前
后续,关于这个任务那之后只是让我做调查没让我爬,但是昨天又让我爬了,并且同意只爬取公共领域的书籍。
但是坐标欧陆,欧洲的公共领域的定义和美国不同而网站几乎全是美国网站,这一点我已经跟老板说了,老板回复手不用我担心法律责任公司会负责。
让老板在邮件里正式声明或者提供 formal document ,老板让我“describe the approach”,根据上下文我不是很确定是要我提供我爬取的 approach 还是相关文档

如果是我的方法:
- 老板有提供一个书籍列表,希望我找到尽可能多的书单上的书籍:
1. 通过古登堡计划的官网的指示用 rsync 或其他方法下载整个网站的存档并存到公司内部电脑
2. 通过 API 在以下网站上查找不在古登堡里的书籍,检查相关书籍的版权状态,如果是公共领域,检查是否有资源,如果网站提供指向资源的链接,就获取资源;如果指向外部网站的链接,就记录网站名称和相关链接
- internet archive
- hathitrust
- wikidata
- openlibrary
- ...
你们认为这样可以吗?
如果是要求 formal document ,我要要求提供怎样的文件呢?
Fffys
199 天前
@PerFectTime #1 应该提供怎样的文件呢?老板让我说明,我不是很懂怎样的文件才算有法律效应

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1093529

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX