有没有靠谱的敏感信息过滤系统?

2014-12-20 18:08:46 +08:00
 fising
有没有靠谱的过滤敏感信息的系统?政治、色情、宗教或者违法信息等
4321 次点击
所在节点    站长
24 条回复
jerryjhou
2014-12-20 18:12:24 +08:00
如果V2EX装了这种东西,你的问题根本就发不出来。
能问一下你要干什么吗?
fising
2014-12-20 18:13:55 +08:00
@jerryjhou 我没说 V2EX 装了这东西,我是要问有没有好用的而已。
jerryjhou
2014-12-20 18:14:14 +08:00
http://discuz.qq.com/service/security

这个就是,但是真的很恶心
lsylsy2
2014-12-20 18:33:08 +08:00
@jerryjhou 想在墙内飘,这种东西有时候少不了
你建个DZ论坛,就保留在默认状态,过一个月上去看看,已经被垃圾信息塞满了
jerryjhou
2014-12-20 18:40:22 +08:00
@lsylsy2 垃圾信息=敏感信息?反正我是不会把政治宗教和色情违法并列的
fising
2014-12-20 18:42:50 +08:00
@jerryjhou 不必那么较真吧?
jerryjhou
2014-12-20 18:46:00 +08:00
@fising 确实不该,但是我实在是反感这种东西(这玩意的过滤标准是不可调整的)
a2z
2014-12-20 18:46:45 +08:00
@jerryjhou
信息就是信息,没有违法一说。
lsylsy2
2014-12-20 18:52:47 +08:00
@jerryjhou 反正我遇到过大法的帖子,我觉得那就是彻头彻尾的垃圾信息。
跑题了,LZ的重点并不是他想过滤的是什么,而是他想要一个过滤系统而已。如果在天朝想做事情,怎么着都要一套。
顺便同求一套关键词系统,最好能部署在Nginx层,当关键词触发到达阈值时,给管理员发邮件提醒。
lsylsy2
2014-12-20 18:54:27 +08:00
@jerryjhou
我的“过滤标准”很简单:网警给我啥我就过滤啥。
我个人的宗教政治观点是一回事,我(我们)的东西能不能在天朝活下去是另一回事。
blijf
2014-12-20 19:17:30 +08:00
您好
我朝已自带敏感信息过滤系统 XD
abelyao
2014-12-20 19:40:54 +08:00
往简单了说就是一个黑字典,或者叫脏字典,但是这东西经常会添加新的。往大的说,可能是一个在线服务接口,有这东西也不错,楼主如果发现有 api 也圈我一下,然后如果要字典文件呢,可以找那些发短信的服务商要一份。
abelyao
2014-12-20 19:41:56 +08:00
楼上没有一个正经回答楼主问题的,V2 怎么也这样了
kslr
2014-12-20 19:43:52 +08:00
有限状态机 适合这种应用 python有现成的
caixiexin
2014-12-20 19:52:06 +08:00
现成的系统不大清楚,方法倒是有,就是用敏感词字典表来做,之前工作上做过敏感词检测模块,给你点思路。
1.项目启动时对载入敏感词库作为缓存(一个大map,敏感词为key,取任意值为value)。 对请求传入的文本分词,遍历分词结果,每个分词在map中查找,如果有值,则请求文本存在敏感词。
2.把敏感词库拼接成一个大的正则表达式,然后直接对文本匹配。
3.使用DFA(确定性有限状态自动机) DFA算法
-----------
由于之前的需求比较简单,我用的是第一种的改进方法。后来整理了篇博文,但愿对你有帮助。
http://my.oschina.net/u/1010578/blog/308904
ps:当初见过敏感词字典后,感觉打开了新世界大门,好多没见过的词= =
jerryjhou
2014-12-20 20:30:26 +08:00
@abelyao 麻烦看看三楼,我不是给了链接吗?什么叫没有正经回答
jerryjhou
2014-12-20 20:33:29 +08:00
@lsylsy2 V2EX怎么也有了编辑功能? 提醒系统里写的是XX功(气功的全称),怎么到帖子里一看变成了大法(da fa)
lsylsy2
2014-12-20 20:39:06 +08:00
abelyao
2014-12-20 20:52:04 +08:00
@jerryjhou "防水墙属于Discuz!云平台下的服务,您需要先开通Discuz!云平台。"
xiaolvmu
2014-12-20 21:50:48 +08:00
这个……如果是论坛的话,esotalk有一个Word Fliter Extension。你可以参考它的源代码#^_^#

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/155352

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX