@
helloadmin #2
引用 V 友的话( sillydaddy )
“事件的经过大概是这样的:
v2ex plus 插件作者开发了一个关于 V2EX 的新功能 vDaily ,可以发布类似于 v 站帖子排行榜的功能,也有挖掘历史帖子展示出来的功能,所以它不光需要 v 站近期的帖子,还需要历史帖子的数据。
按照 plus 作者的说法,它向 sov2ex 作者借了一份爬取过的 v 站的存量帖子数据,但有些数据(点赞数、感谢数)不全。
https://www.v2ex.com/t/939486?p=2#r_13072169所以,plus 作者决定自己爬取历史帖子数据。根据下面用户的反馈,这大概是在 2 个月前开始的:
https://www.v2ex.com/t/924796问题在于,plus 作者完成这个爬取的过程,是借助 plus 插件用户:它用服务器下发给每个 plus 插件用户一些主题 id ,让这些用户在本地帮它完成主题的爬取,然后上传爬取到的主题内容到 plus 作者的服务器上。这就导致了刚才提到的那个帖子里,plus 插件的用户突然发现「最近查看过的主题」里面,出现了一些自己从来没有看过的主题。
plus 作者的这个决定,并没有征得 plus 插件用户的同意,没有显式给出这些用户自主选择的权利。
其实单 ip 爬取 v 站的数据,分布到 6 个月内,按照 90 万个帖子,180 天,每天大概 5000 个帖子,平均 20 秒请求一个帖子,对 v 站造成的压力应该不会增加多少。猜测 plus 作者可能是想快点爬完?”