有什么不良内容检测的方案吗?

2016-01-25 18:23:15 +08:00
 KIDJourney

最近在做一个百度贴吧的自动管理机。
现在用的是关键词判别,但是这样误杀率太高了。。。
有没有什么现有的不良内容(涉黄,粗口,不友善)检测方案吗?

顺便丢个地址,求 star 什么的。。。
TiebaManager

3503 次点击
所在节点    Python
33 条回复
KIDJourney
2016-01-25 18:24:40 +08:00
这个现在已经可以用啦,只不过根据关键词来弄得话误杀率比较高。。。
aheadlead
2016-01-25 18:34:12 +08:00
KIDJourney
2016-01-25 18:56:26 +08:00
@aheadlead 多谢。
SoHMarionette
2016-01-25 19:45:53 +08:00
实际来说都会有一定的误判吧
例如发广告的加空格,连句触发
毕竟中华文化博大精深
zhicheng
2016-01-25 19:48:59 +08:00
朴素贝叶斯
ethego
2016-01-25 19:50:00 +08:00
@SoHMarionette 去空格再进行分词,现在中文分词的正确率已经非常高了
SoHMarionette
2016-01-25 21:50:27 +08:00
@ethego 不仅仅是空格,还有加符号的,加一样的字的什么的层出不穷,邮箱已经见惯不惯了
ethego
2016-01-25 21:54:45 +08:00
@SoHMarionette 一行正则就能剔除所有符号
KIDJourney
2016-01-25 21:56:58 +08:00
@zhicheng 吧务后台现在有问题,不然我也用训练集了。
timepast
2016-01-25 22:00:28 +08:00
同求一份脏字库
lrz0lrz
2016-01-25 22:35:32 +08:00
@ethego 同噩性噩交噩友,缓錒解錒寂錒寞 wWw 点 V2EX 点 cOm
ethego
2016-01-25 22:37:20 +08:00
@lrz0lrz 你这个只能人工审核,没别的办法
ethego
2016-01-25 22:40:48 +08:00
@lrz0lrz 可以做到把这种异常的语句剔出来人工审
nlzy
2016-01-25 22:42:14 +08:00
迅哥好

@lrz0lrz 这个不应该是 wWw 点 BilIbiLi 点 c0M 么
aprikyblue
2016-01-25 22:50:24 +08:00
只有我想到鉴黄师吗?:doge:
KIDJourney
2016-01-25 23:00:38 +08:00
@nlzy 泥壕
gzlock
2016-01-26 06:51:23 +08:00
@lrz0lrz
正则可破,就是开销大
同.{0,3}性.{0,3}交.{0,3}友
但如果用同音字就无解了:铜星焦油 无解

@nlzy 网址有点麻烦,不过还是有规律
例如你举例的
.{1,5}[.。点點].{2,10}[.。点點].{2,5}

ps :以上正则用于已去除空格的文本
ryd994
2016-01-26 07:41:35 +08:00
贝叶斯大法好
但首先你得有足够的样本库……
nlzy
2016-01-26 10:08:22 +08:00
@gzlock 误杀率好高,这个正则连 2016.01.26 或 ...... 都能匹配到
KIDJourney
2016-01-26 10:36:08 +08:00
@ryd994
吧务后台挂啦。。。。不然我就用了。。。。。
而且还要处理图片,这个比较麻烦。。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/253287

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX