有没有办法查找相似数据来判断用户是否在发布重复的内容

2021-01-24 05:48:36 +08:00
 kaiki
为了防止无意义的灌水做反垃圾,但是现在灌垃圾的手段升级了,他会爬取正常的用户发言,然后灌进来。
目的只是为了给我的服务器增压好让我每天能多支付一些服务器费用。

特征大概是连续发布、复制已存在的内容、无法访问则自动换代理 IP 发布。

不从账号入手,因为低门槛,想从用户行为来判断是否为灌垃圾。

数据库是 mysql 。
1250 次点击
所在节点    问与答
6 条回复
kaiki
2021-01-24 06:00:36 +08:00
对了,我也想在用户的权重上做一些设定,比如有明显灌水行为的账号权重会急速下滑,对于正常账号在偶然触发检测也可以正常放行,有思路吗?
jangit
2021-01-24 08:14:31 +08:00
正常来说这些问题应该用验证码解决吧
renmu123
2021-01-24 10:17:26 +08:00
设置账号发帖间隔,人工审核加举报,发现一次警告,二次封号封 IP 。
想从行为入手,你首先得定义什么是灌水,如果是论坛还有不同板块那就更麻烦了。
一般好像都是论坛各版主自己手动处理+封号
oott123
2021-01-24 10:34:40 +08:00
要解决楼主内容里的描述问题,前面几位的回复方法比较不错

要解决楼主标题里提出的问题,可以用 simhash
s2019
2021-01-24 16:07:04 +08:00
考虑用文本相似度做比较,可以用机器学习的方式来实现
kaiki
2021-01-24 17:55:34 +08:00
@renmu123 这个检测并不是严格的,对于连续发布相同内容的灌垃圾行为才需要处理。
@jangit 的确有考虑在发布量发生明显变多的情况下启动验证码,但是对想搞破坏的人来说改变不了什么,这种人是单纯的太闲。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/747788

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX