用第三方数据和一个开源文本分类库撸了一个短语垃圾分类器

2016-07-06 11:39:45 +08:00
 bobuick

临时开的测试地址

git 里只有 load handler 的部分, 训练数据太大了,没放上去。随便玩玩, 大神轻喷, 准确率还没做仔细评测,应该对训练数据做个比例分离,拿一部分做测试数据, 算法库是 LibLinear ,在它基础上还有一层 python 封装库 tgrocery

我是 git 地址 求 star =。=

3721 次点击
所在节点    程序员
4 条回复
qqmishi
2016-07-06 11:45:51 +08:00
http://115.231.96.136:8810/v1/classify?msg=冃狌交伖,释鲂压劦、棑解漃瘼◆真人视频.网址: wWw.GitHub 。 Com

{"predict": {"ad": -0.066918752863160541, "spam": -0.10691206619180635, "porn": -0.13125600199396634, "nonsense": -0.17521140226677201, "politic": -0.15298335802307686, "ham": 0.6332815813380146}, "res": "ham"}

23333
bobuick
2016-07-06 11:57:37 +08:00
=。=牛,数据短缺, “冃狌交伖,释鲂压劦、棑解漃瘼”
bobuick
2016-07-06 12:07:22 +08:00
看来火星文和用偏僻词谐音的数据缺的比较厉害, 这么一比较我那些训练数据原来那么和谐呢
vincentfung13
2016-08-02 11:13:34 +08:00
题主是在哪拿到的训练数据啊,能分享下么,哈哈哈

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/290598

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX