垃圾文本过滤器

2017-11-09 17:11:30 +08:00
 Windsooon

Hello,大家好,我自己做个几个私人项目经常会遇到广告或者垃圾评论,所以写了个文本过滤器。

这个项目目的是使用机器学习/人工智能来判别垃圾内容,现阶段用户输入句子会先经过分词,然后通过朴素贝叶斯模型判别成正常,色情,赌博,政治敏感四个类别。现在每个类别各使用了 100 个训练数据,辨别准确率大约为 93%。

特点:

自己可以添加修改数据源,增加训练正确率

希望大家多提建议或者意见

https://github.com/Windsooon/Spam-Filter

3328 次点击
所在节点    程序员
13 条回复
holajamc
2017-11-09 17:17:44 +08:00
已 star~
Windsooon
2017-11-09 17:19:16 +08:00
@holajamc 欢迎提 issue ~
holajamc
2017-11-09 17:21:52 +08:00
@Windsooon 用过这个 https://github.com/pakrchen/text-antispam 推荐给你参考~
huangfs
2017-11-09 17:26:24 +08:00
这个样本有点少啊。。
MaiCong
2017-11-09 17:33:24 +08:00
我曾经研究过这个垃圾过滤,找到个 datagrand 提供的接口,简单点的 curl 版:

curl 'http://fileload.datagrand.com:8080/audit' -H 'Content-Type: application/x-www-form-urlencoded; charset=UTF-8' -H 'Accept: */*' -H 'Cache-Control: no-cache' -H 'Referer: http://www.datagrand.com/demo/nlp/' --data 'text=%E6%96%87%E7%AB%A0%E4%B8%8D%E9%94%99%EF%BC%8C%E5%8A%A0V%E8%AF%A6%E8%B0%88%20sb***' --compressed | json_pp

返回:
{
"reaction" : 0.0153,
"is_insult" : 0,
"is_ad" : 0,
"politic" : 0.0153,
"weight_insult" : 0.2905,
"weight_ad" : 0.3412,
"porn" : 0.0855
}
noe132
2017-11-09 20:44:14 +08:00
一直想学习了解机器学习相关的内容,不知该如何入门?应该了解一些什么技术或者资料?
billlee
2017-11-09 21:37:33 +08:00
@noe132 #6 入门可以看 coursera 上 adrew ng 的课程。
Windsooon
2017-11-09 22:07:15 +08:00
@huangfs 有推荐的文本库吗
Windsooon
2017-11-09 22:07:26 +08:00
@holajamc 谢谢 我会看看
Windsooon
2017-11-09 22:08:14 +08:00
@noe132 coursera 或者 优达学城的都不错,机器学习实战这本书也很好
noNOno
2017-11-09 22:15:42 +08:00
特征选择是用了词袋么
Windsooon
2017-11-09 23:30:20 +08:00
@noNOno 是的
wzha2008
2017-11-10 11:23:40 +08:00
@MaiCong 欢迎使用我司产品

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/405023

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX