v2ex plus 用户们,你们知道你们的浏览器被用来跑分布式爬虫了吗

2023-05-12 13:50:20 +08:00
 Xianmua
首先承认标题夸张了点,但是事实确实如此。
看到有个 V2EX plus 插件,很多人都装了的,准备也安装来用用。插件功能不少,这个没错,有些方便的小功能。
进设置页面的时候,发现有个 vdaily 默认开启,比较有意思的是这句话“同时接受等量的爬取任务”。有点好奇接受任务这件事,于是看了看怎么回事。哦只要安装了插件,会不断地从服务器获取爬虫任务。
vdaily 作者的网站,有非常详细的请求统计和快速滚动的爬虫任务日志分析,想看的自己去看吧,都是公开的(在请求统计和日志那里)。这里有一堆截图,可以看看。
当然可以说作者做的一点毛病也没有,毕竟在插件设置内都写明了,开启 vdaily 会接受爬取的任务,至于爬取的数据,那就是 vdaily 的资产了对吧。分布式爬虫人家也没什么遮遮掩掩的,都是正大光明的,本篇帖子也没有有技术含量的分析。只是说我是不太喜欢这个 feature ,删了。提醒一下大家,不知道的或者是介意的,都知道知道。
图片合辑: https://imgur.com/a/shPfy8I













https://i.imgur.com/N4TK3FG.mp4
42430 次点击
所在节点    程序员
185 条回复
tankren
2023-05-13 11:39:04 +08:00
用的 V2EX polish
suotm
2023-05-13 11:54:15 +08:00
看了一圈,尝试了一遍,用了 V2EX - 超级增强 ,主要是脚本我看得懂里面搞了什么操作。

感谢所有增强插件的作者。
herozzm
2023-05-13 12:02:14 +08:00
@bjzhush 应该是服务端下发的任务,可以是任何网站
blacko
2023-05-13 12:32:00 +08:00


一直使用 V2EX plus ,我在 选项 - 其他 里没有找到 vDaily 设置,macOS ,Firefox 。
ljsh093
2023-05-13 12:41:49 +08:00
@sciooga 出来洗地
ljsh093
2023-05-13 12:42:37 +08:00
@blacko 激活微博是啥意思?
Xianmua
2023-05-13 12:47:32 +08:00
@blacko 当然没有,firefox 商店的最新版是 2021 年的 1.6.5 版本,vdaily 功能是今年三月份加入的
mortal
2023-05-13 13:36:33 +08:00
谢谢,已卸载。
PinLeak
2023-05-13 13:37:03 +08:00
我不在乎,随便爬。
levenwindy
2023-05-13 13:49:02 +08:00
@chirsgod 才知道 V2EX 有插件,改了暗色还行,就是图片亮度太高了
bzw875
2023-05-13 13:59:33 +08:00
无所谓吧,不是挖矿就行,我也想看 vDaily 啊
dxppp
2023-05-13 14:48:40 +08:00
@PinLeak 那我和楼上不少老哥都很在乎
RoccoShi
2023-05-13 15:41:33 +08:00
我居然才知道 V2EX 有插件
locoz
2023-05-13 16:49:02 +08:00
@blacko #124 老版本没有。之前其实也都很长时间没更新了,今年突然快速更新了很多版,然后才有了这功能。
gzlock
2023-05-13 16:51:40 +08:00
@zyronon #42 卸载了 v2 plus 扩展之后用你的脚本,发现回复帖子会提示“回复失败”,禁用脚本之后成功回复。

zyronon
2023-05-13 16:58:34 +08:00
@gzlock #135 好的,收到
lran9527
2023-05-13 19:28:09 +08:00
一下就想到了 "中国人愿用隐私换便捷", 哈哈哈哈, 有点招笑, 假如作者关了的话,我想我还是会继续用吧,先卸了,等子弹飞一会。
helloet
2023-05-13 22:02:04 +08:00
谢谢 已卸载
pokon548
2023-05-13 22:54:22 +08:00
补充几个额外信息:

原作者在 GitHub 上还弄了一个名为 v2ex-plus-backend 的开源项目: https://github.com/sciooga/v2ex-plus-backend/

为了避免意外情况,这是互联网存档: https://web.archive.org/web/20230513145058/https://github.com/sciooga/v2ex-plus-backend/

如果你对代码感兴趣,这是源代码 zip 归档的 archive 链接: https://web.archive.org/web/20230513144958/https://codeload.github.com/sciooga/v2ex-plus-backend/zip/refs/heads/master
pokon548
2023-05-13 23:00:50 +08:00
另外,刚发现这个后端似乎存在获得 V2EX 用户 session 和 cookie 的高危行为:

https://github.com/sciooga/v2ex-plus-backend/blob/5427f9f97613e71086777bcfc8cac265a7b1255b/fastapi/tools.py#L137

互联网存档: https://web.archive.org/web/20230513145855/https://github.com/sciooga/v2ex-plus-backend/blob/5427f9f97613e71086777bcfc8cac265a7b1255b/fastapi/tools.py

我不认为一个插件有任何获得 session 与 cookie 的正当理由,建议大家谨慎抉择

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/939486

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX