被 spam 评论给弄疯了,如何有效的建立机器学习模型呢?

2020-02-20 11:14:19 +08:00
 SlipStupig

公司产品评论区里面老是出现一些乱七八糟的评论,开始用正则表达式,但是太容易绕过了,而且还容易误杀。 后来用了 tfidf+native bayes 做个一个模型,开始还行,后来出现了一些内容嵌入发帖,例如:

深度考察. 2019 年 10 月 23 日 23:16.棋牌游戏一对一真钱_新布丁娱乐大厅拼三张可以作弊吗. 关于棋牌游戏一对一 883321.com 真钱的 创新是民族进步之魂,创新型青年人才是国家的未来。周女士也想提醒广大家长,在孩子入学的问题上,一定要 ... 障用户更加便捷地在快手记录分享生活、学习、娱乐和社交,甚至获得经济收入。

这种类似的文本,使用 tfidf 去提取文本特征,提取出来的特征基本上对这种文本没有什么用,大家有什么好的办法嘛

7842 次点击
所在节点    程序员
71 条回复
xfelix
2020-02-20 11:19:14 +08:00
不要光考虑评论内容,试着从其他特征入手,比如 ip 地址,client type 等。
mcone
2020-02-20 11:20:40 +08:00
之前做过一个类似的,首先我觉得你们思路就不太对
> “但是太容易绕过了”
你们不能简单粗暴地直接拒绝提交评论或者直接屏蔽掉,而是应该让这段内容不对其他用户显示,对发布 spam 的真人 /bot 透明,这样就能轻松很多了

至于模型,我也没有特别好的 idea,之前被折磨地很痛苦,对“在别人的大段真实评论里插入几个字(甚至是火星文)”的广告,我至今都没什么好想法……
murmur
2020-02-20 11:21:23 +08:00
关评论,筛选,实名
feng12345
2020-02-20 11:23:14 +08:00
看下市面上有没有合适的商用产品,有时候花点钱还是挺值得
SlipStupig
2020-02-20 11:26:45 +08:00
@murmur 关评论我会被骂死的。。

@feng12345 公司穷不可能额外花钱
SlipStupig
2020-02-20 11:28:41 +08:00
@xfelix 能说的具体一点嘛
huayumo
2020-02-20 11:31:12 +08:00
发帖审核,要么关键字过滤,不然这产品迟早要完,要么加强账号审核,登录什么的
cmdOptionKana
2020-02-20 11:32:36 +08:00
提高注册门槛,封号。这样广告账号的注册成本提高了,自然就会减少。(比如需要做一些任务才能发评论)
learnshare
2020-02-20 11:33:53 +08:00
不审核,轻则暂停访问整改,重则永久封掉
murmur
2020-02-20 11:39:31 +08:00
你们是大陆地区的产品么,没有审核没有实名制是严重问题
xuanbg
2020-02-20 11:41:59 +08:00
评论的套路难道不都是审核后才能让别人看得到吗?然后问题就变成了怎么审核的问题。一般来说都是机器为主人工补充。就是符合通过和驳回规则的直接就通过或驳回了,剩下的人工来审核。
SlipStupig
2020-02-20 11:42:24 +08:00
@murmur
@cmdOptionKana

目前这个情况没办法实名验证,之前弄了手机验证,好像完全没用
cmdOptionKana
2020-02-20 12:10:00 +08:00
@SlipStupig 没有实名制,广告还算小事情了,万一被人家搞,给你发敏感词,再一举报。
Juszoe
2020-02-20 12:15:00 +08:00
同意二楼,这种很类似贴吧
SquirrelMAN
2020-02-20 12:47:34 +08:00
有个 iOS 应用 熊猫吃短信 过滤垃圾文本做的非常好
bitholic
2020-02-20 13:04:59 +08:00
如果有资金,可以考虑第三方反垃圾服务
WebKit
2020-02-20 13:14:08 +08:00
大陆地区的评论没有实名,你们怕是要被永久封停
fonlan
2020-02-20 13:22:32 +08:00
用这些嵌入式文本继续训练你的模型啊,另外可以用模型给出一个疑似度值,高于某个门限的需要人工审核
Cbdy
2020-02-20 13:27:02 +08:00
朴素贝叶斯解君愁
qq316107934
2020-02-20 13:32:41 +08:00
新注册账号 2h 内禁止发言,账号需要验证邮箱,发帖需要验证码,发帖量在 3 个以下的需要手动发表审核。我就不信还有。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/646050

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX