v2ex plus 用户们,你们知道你们的浏览器被用来跑分布式爬虫了吗

2023-05-12 13:50:20 +08:00
 Xianmua
首先承认标题夸张了点,但是事实确实如此。
看到有个 V2EX plus 插件,很多人都装了的,准备也安装来用用。插件功能不少,这个没错,有些方便的小功能。
进设置页面的时候,发现有个 vdaily 默认开启,比较有意思的是这句话“同时接受等量的爬取任务”。有点好奇接受任务这件事,于是看了看怎么回事。哦只要安装了插件,会不断地从服务器获取爬虫任务。
vdaily 作者的网站,有非常详细的请求统计和快速滚动的爬虫任务日志分析,想看的自己去看吧,都是公开的(在请求统计和日志那里)。这里有一堆截图,可以看看。
当然可以说作者做的一点毛病也没有,毕竟在插件设置内都写明了,开启 vdaily 会接受爬取的任务,至于爬取的数据,那就是 vdaily 的资产了对吧。分布式爬虫人家也没什么遮遮掩掩的,都是正大光明的,本篇帖子也没有有技术含量的分析。只是说我是不太喜欢这个 feature ,删了。提醒一下大家,不知道的或者是介意的,都知道知道。
图片合辑: https://imgur.com/a/shPfy8I













https://i.imgur.com/N4TK3FG.mp4
42407 次点击
所在节点    程序员
185 条回复
Aloento
2023-05-12 17:07:51 +08:00
你们啊,就喜欢把这些东西拿出来批判一番,到头来搞的自己也啥没得用了,卸载就卸载吧,还举报,作者做错了什么?
zyronon
2023-05-12 17:09:53 +08:00
大家可以试试我开发的 油猴脚本: https://greasyfork.org/zh-CN/scripts/458024 ,目前已经有 2000 多的安装量,如果您未安装可以尝试一下,绝对不会让您失望

代码完全开源: https://github.com/zyronon/v2ex-script
zyronon
2023-05-12 17:10:46 +08:00
才注意到仓库里没写脚本安装地址...
israinbow
2023-05-12 17:15:54 +08:00
@Aloento #40 作者做错了没有弹窗提示必须同意 ToS 才能使用💋
liuidetmks
2023-05-12 17:18:16 +08:00
我想知道,他是只能爬 v2ex.com 的数据,其他域名,qq ,zhihu 有权限爬吗? 不太懂扩展工作原理

看他好像只是做了个 v 站精选。算不上罪大恶极
estk
2023-05-12 17:21:00 +08:00
据说 chrome 崩溃和 bug 很多也是插件造成的
my3157
2023-05-12 17:26:29 +08:00
早就关闭了, 不过没注意到还有爬虫

已卸载
zyronon
2023-05-12 17:31:40 +08:00
@liuidetmks #45 事不太,问题是默认启用。今天敢 xx 明天就敢 xxx
Aloento
2023-05-12 17:35:35 +08:00
@israinbow 哈?😓
shzbkzo
2023-05-12 17:38:49 +08:00
感谢,已经卸载+举报
CloudnuY
2023-05-12 17:39:59 +08:00
是这个插件造成我最近偶尔访问 v2 就报 403 吗……
GoRoad
2023-05-12 17:44:14 +08:00
作者在站内,出来说一句吧 @sciooga
my3157
2023-05-12 17:44:19 +08:00
换了 V2EX Polish

先用一段时间, 再看网络日志里面有没有乱七八糟的东西
wangnimabenma
2023-05-12 17:53:10 +08:00
@Aloento 这个观点是根据谷歌浏览器开发者政策中关于自动化程序、脚本或机器人的规定得出的。该政策指出,插件不得通过任何自动化程序、脚本或机器人访问网站或服务。这样的规定可以理解为禁止扩展插件进行爬虫或者数据采集行为,因为这些行为通常需要使用自动化程序或脚本。

具体可参考谷歌浏览器开发者政策中的以下内容(引用自 2021 年 9 月的政策版本):

"Your item may not promote or be capable of facilitating illegal activity, such as phishing, spam, invasions of privacy, identity theft, hacking, or cracking. Your item also may not engage in or facilitate the processing of payments for goods or services in a manner that is excessively aggressive, or that otherwise is in violation of applicable laws or industry regulations.

Your item must not violate any applicable laws or industry regulations regarding the content it accesses or the way in which it accesses such content (e.g. scraping). Your item also must not engage in activity that harms or interferes with any networks, equipment, or servers used by any website or service, or that is otherwise disruptive or abusive to such websites or services."

同时,谷歌浏览器开发者指南中也提到了相关的规定和限制,强调扩展插件不能进行违法或者欺诈等行为,也不得对用户进行欺骗或者误导,更不能通过扩展插件获取敏感信息或者隐私数据。

具体可参考谷歌浏览器开发者指南中的以下内容(引用自 2021 年 9 月的政策版本):

"Don't use your extension to deceive or confuse users, such as by using misleading or inaccurate representations in your extension's title, description, or icon. Your extension should not use any form of malicious activity to gain or access sensitive user data, such as passwords, email addresses, or other personal information."
Rache1
2023-05-12 17:55:34 +08:00
@estk 前两天才遇到的,我在测试一个东西,跨域了,因为是请求第三方的网站,想着临时解决一下,就从 chrome 商店下载了个 CORS 解除的插件,用着还好好的。结果今天中午打开 B 站的时候,发现我的登录掉了,然后从新登录,发现获取验证码居然没有响应,打开控制台一看,满屏的 CORS 错误,还以为是 B 站出 BUG 了,好家伙案例来说,装了这个插件就可以不限制跨域的,结果他这一下反倒把别人支持跨域的搞的有问题,大致看了一下,他给原本支持跨域的接口的 allow origin 给改成了 * ,导致有用到 Cookie 的 allow Credentials 全部 G 掉,居然还有 40,000+ 用户

Cross Domain - CORS - Chrome 应用商店
https://chrome.google.com/webstore/detail/cross-domain-cors/mjhpgnbimicffchbodmgfnemoghjakai
kiko12324
2023-05-12 17:59:06 +08:00
谢谢,已删除更新其它脚本
slipkinem
2023-05-12 18:01:35 +08:00
@zyronon 电脑浏览器手机模式脚本不起作用么
zyronon
2023-05-12 18:07:57 +08:00
@slipkinem #57 不起作用。手机模式网页结构不同,暂时还不支持手机模式
oldshensheep
2023-05-12 18:10:50 +08:00
@Rache1 有没有想过是你不会用,默认的正则表达式.*是应用到全部域名上的……你改一下不就行了
Serif
2023-05-12 18:19:44 +08:00
感谢提醒

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/939486

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX