v2ex plus 用户们,你们知道你们的浏览器被用来跑分布式爬虫了吗

2023-05-12 13:50:20 +08:00
 Xianmua
首先承认标题夸张了点,但是事实确实如此。
看到有个 V2EX plus 插件,很多人都装了的,准备也安装来用用。插件功能不少,这个没错,有些方便的小功能。
进设置页面的时候,发现有个 vdaily 默认开启,比较有意思的是这句话“同时接受等量的爬取任务”。有点好奇接受任务这件事,于是看了看怎么回事。哦只要安装了插件,会不断地从服务器获取爬虫任务。
vdaily 作者的网站,有非常详细的请求统计和快速滚动的爬虫任务日志分析,想看的自己去看吧,都是公开的(在请求统计和日志那里)。这里有一堆截图,可以看看。
当然可以说作者做的一点毛病也没有,毕竟在插件设置内都写明了,开启 vdaily 会接受爬取的任务,至于爬取的数据,那就是 vdaily 的资产了对吧。分布式爬虫人家也没什么遮遮掩掩的,都是正大光明的,本篇帖子也没有有技术含量的分析。只是说我是不太喜欢这个 feature ,删了。提醒一下大家,不知道的或者是介意的,都知道知道。
图片合辑: https://imgur.com/a/shPfy8I













https://i.imgur.com/N4TK3FG.mp4
42437 次点击
所在节点    程序员
185 条回复
sciooga
2023-05-14 10:48:29 +08:00
@Livid #156 逻辑并不是这样的,是用户浏览一个主题的行为才会有后续的爬取操作,如果用户一直不浏览主题那就不会有任何额外的请求产生(是指爬取数据的请求,签到、检查未读消息除外),用户浏览的主题多才会导致爬取的内容多,然后历史主题的下发是用户侧请求服务器的,目前关闭的是历史主题的下发。

然后这个功能同样是拥有独立的开关的,用户关闭 vDaily 后,既不会有推荐主题也不会有额外的爬取动作
MEIerer
2023-05-14 10:52:45 +08:00
看到了,已关
miv
2023-05-14 10:57:16 +08:00
已卸载插件,没有明确告知,我就不用了。
这种损失了 v 站的利益,加了无效的请求。作为 v 站一员,我抵制这种插件。
Livid
2023-05-14 10:58:46 +08:00
@sciooga 用户的访问时段是集中的,这个你从你自己的 goaccess 日志中也可以看到。

由于插件的行为,在高峰时段,插件用户会造成额外的 3 倍的访问压力。
sciooga
2023-05-14 11:11:29 +08:00
@Livid #164 实在是抱歉,目前已经关闭了历史主题的爬取,以后也不会开启

goAccess 中的日志
/api/topic/info?task=undefined 为当前浏览主题的数据提交,不产生额外请求
/api/topic/info?task=[:id] 为历史主题的数据提交,会产生额外的请求
/api/topic/task 为获取历史主题的爬取任务,这个是我们可以控制的,并且请求很多,但是大量返回的是空任务(之前 70% 现在停止了),而且另外的 30% 也要取决于是否有较长时间未更新数据的主题
herexf403
2023-05-14 11:31:10 +08:00
大佬开始关注了
sciooga
2023-05-14 11:40:56 +08:00
按照 OP 的要求,另开主题进行说明解释了 /t/939852
f1ynnv2
2023-05-14 11:43:35 +08:00
@Livid 肉机啊!
这作者真是 nb ,愣是轻描淡写的一句没事先通知大家加了爬虫功能想给蒙混过去。
chrawsl
2023-05-14 11:56:35 +08:00
@pokon548 这是后端的逻辑,不是插件读取 cookies
pokon548
2023-05-14 12:02:43 +08:00
@chrawsl 是的,已经在下面的回复中说明了这一情况,很抱歉给你带来的麻烦。
chrawsl
2023-05-14 12:07:51 +08:00
@pokon548 感觉 v2 还是偏情绪输出而不是技术为主了 :-D
vitovan
2023-05-14 12:13:54 +08:00
@Livid #160 这个听起来很邪恶啊。
fredcc
2023-05-14 15:01:36 +08:00
以下摘自最高检官网文章:“爬取数据须遵规”:

着眼刑事法律角度规制数据爬虫,可以从爬虫行为和数据使用两方面入手:其一,明知没有授权而故意避开或强行突破网站或 App 的反爬虫技术设置进行的爬取行为,属于“未经授权”访问或获取数据,行为人应依法承担相应责任包括刑事责任。

以下是吃瓜群众角度的看法。
云控用户计算机上安装的应用,后台下发任务,执行分布式爬虫任务,绕过网站设置的反爬虫技术设置,影响用户正常使用、网站稳定运行或增大了网站的运行成本。这是个什么性质的行为呢,

开源只是工具不是护身符。
a282810
2023-05-14 17:06:25 +08:00
用过一段时间,偶然发现会有额外的定时网络请求,觉得有风险就停止使用了,现在转用油猴脚本
idblife
2023-05-14 17:39:39 +08:00
已删除,已举报
ToBeHacker
2023-05-14 18:10:39 +08:00
这。。。。已经算是一种木马了吧。。。。。
ijrou
2023-05-14 18:20:36 +08:00
@zyronon #42 不得不说,非常棒
redtea
2023-05-14 18:48:41 +08:00
访问 V2EX 的绝大多数人都需要使用代理,安装了这个插件意味着成为肉鸡,要为了这个分布式爬虫消耗大量额外的流量。
bobsam
2023-05-14 18:49:24 +08:00
谢谢楼主提醒,已卸载。
lifeintools
2023-05-14 18:54:38 +08:00
已卸载

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/939486

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX