被 spam 评论给弄疯了，如何有效的建立机器学习模型呢？

2020-02-20 11:14:19 +08:00

SlipStupig

公司产品评论区里面老是出现一些乱七八糟的评论，开始用正则表达式，但是太容易绕过了，而且还容易误杀。后来用了 tfidf+native bayes 做个一个模型，开始还行，后来出现了一些内容嵌入发帖，例如：

深度考察. 2019 年 10 月 23 日 23:16.棋牌游戏一对一真钱_新布丁娱乐大厅拼三张可以作弊吗. 关于棋牌游戏一对一 883321.com 真钱的 创新是民族进步之魂，创新型青年人才是国家的未来。周女士也想提醒广大家长，在孩子入学的问题上，一定要 ... 障用户更加便捷地在快手记录分享生活、学习、娱乐和社交，甚至获得经济收入。

这种类似的文本，使用 tfidf 去提取文本特征，提取出来的特征基本上对这种文本没有什么用，大家有什么好的办法嘛

8738 次点击

所在节点

程序员

71 条回复

fantastM

2020-02-20 13:32:57 +08:00

学习一下 t66y 社区的管理方式

dayeye2006199

2020-02-20 13:35:27 +08:00

试试中文分词+fasttext。这种模型使用了 ngram，所以棋牌，游戏这种 2-gram 可能可以被模型捕捉到。

如果在 fancy 一点上深度学习： https://github.com/facebookresearch/pytext

iConnect

2020-02-20 13:39:16 +08:00

你用机器算法屏蔽，别人也会机器算法反屏蔽，猫和老鼠的游戏。除非你的数据特别大，否则很难彻底杜绝 Spam

opengps

2020-02-20 13:48:28 +08:00

先买成品敏感词过滤服务，现学来不及

tfdetang

2020-02-20 13:48:51 +08:00

可以用一个半监督的流程，让机器不停的自己标数据，然后人工抽样复合，再用这些数据生成模型，形成一个正向循环

DoubleShut

2020-02-20 13:51:03 +08:00

评论，加验证码

DoubleShut

2020-02-20 13:51:12 +08:00

行为验证码

littiefish

2020-02-20 13:59:56 +08:00

屏蔽，棋牌，真人，娱乐，一对一，收益，兼职

sethverlo

2020-02-20 14:01:11 +08:00

亲测显而易见的问题，中文分词 + fasttext 效果拔群，训练速度也快，不用 gpu

pythonee

2020-02-20 14:09:31 +08:00

这个之前个人博客也很多类似的，应该有一些评论插件或软件吧

flavoury

2020-02-20 14:10:27 +08:00

你可以看看熊猫吃短信---我没说这个可以解决问题，或许能提供给你一些思路

zscself

2020-02-20 14:14:55 +08:00

我也是刚接触机器学习，有哪里不对的欢迎指出。楼主你这个算是传统的机器学习方法了吧。我觉得你可以换成神经网络试一试？词嵌入加神经网络，如果样本足够大的话。比如最初级的文本分类问题-情感分类器的一种实现就是 word2vec 来进行词嵌入，然后交给神经网络（ RNN、LSTM、CNN 都可以）来生成句子向量来进行判断。

zgzhang

2020-02-20 14:47:15 +08:00

@SlipStupig 以下是我做过的 UGC 内容的风控工作的一些经验，你看下是否有帮助：
1. 无论是正则 match 敏感词或者分词+native bayes 甚至神经网络，如果想绕过一定能绕过，想想异形字、拼音混合、火星文等等，如果支持图片那就更是噩梦，OCR 就是一个非常大的问题。
2. 业界的基本操作基本上都是模型打分，分数不仅仅是依赖内容自身可能还有用户的一些历史行为维度，超出阈值部分人工审核，再审核通过前，仅作者可见（那些自以为沙发的评价）
3. 换个维度解决问题，针对违规用户一定要处罚，禁言、封号，不然永远都是对抗
4. 提高用户门槛，包括注册门槛，发言门槛，总之要提升成本
5. 风控策略防止及其行为和团伙作案，IP、设备维度等维度的限制等
6. 完善的应急制度，针对极度敏感内容要有预案能快速删除，以防封站

swulling

2020-02-20 14:56:38 +08:00

思路转变下

第一提高评论门槛。发评论需要用手机号登录新用户 2 小时只能发一条评论。一天内评论超过三天上复杂验证码。
第二增加封禁机制，发现一条封一个手机号，来源 ip 封 48h，也是提高 spam 门槛。
第三机器审核和人工审核并行。算法很多很成熟了，重点是思路转变，要识别正常评论，而不是广告评论。火星文，异形字很容易从正常评论筛选出来。然后调低阈值，用人工标注不断的喂数据进去。也可以购买专门的标注服务，不贵。

summerwar

2020-02-20 15:21:06 +08:00

如果评论之后审核才显示，那么就无利可图，他们也就不发了，因为发了也没用。

审核的时候挑正常的显示就好了

danhahaha

2020-02-20 16:14:22 +08:00

分词+贝叶斯算法

然后人工添加几百个评论学习

这种最直接简单了，曾经帮一个论坛搞了一个插件，从此各种广告绝迹

RangerWolf

2020-02-20 16:18:57 +08:00

不知道你有没有看过阿里云或者百度的接口，这种接口几乎不要钱。。。

xupefei

2020-02-20 16:42:51 +08:00

屏蔽 spam 而已还自己动手训练？现成的 Akismet 有啥不能满足的需求吗

SlipStupig

2020-02-20 17:32:43 +08:00

@zgzhang 绕过是能接受的，我需要能干掉 85%以上的就行。现状是：
垃圾文本干不掉，正常用户被干扰。

我很想知道你们是基于何种 metric, 对模型进行打分的？希望能透露一二

@zscself word2vec 如果在正确分词的情况下可能会很好，但是对方发的词千奇百怪，基本上人阅读都困难，你的 word embedding 可能会很 hit hard😭

id7368

2020-02-20 17:38:05 +08:00

先审后发一个月就没人拿脚本刷了

第 2 页／共 4 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/646050

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.