几条垃圾短信,想听听大家的意见如何从中提取关键词

2014-03-26 22:46:04 +08:00
 snowhs
关键词是给我的自用反垃圾短信应用 https://github.com/snow/sahara 用的

1号
---
在3.15国际消费者权益日到来之际,向您致以节日的问候!新消法,新权益,新责任。倡导文明消费,增强消费维权能力,期待大家行动起来。省消协

2号
---
[成] [发]
[都] [票]
13612969603 陈


其中,省消协就只发过这一次,下次发恐怕是明年,所以提取"省消协"作为关键词,也不是不可以...
而2号,我现在用的匹配模式是短信内容中有"票" && 有电话号码或者URI. 但是曾经遇到过spamer用"嘌"来代替"嘌"。

大家有没有更好的想法?

PS: 有没有比`问与答`更适合这个topic的节点?
2635 次点击
所在节点    问与答
6 条回复
wklken
2014-03-26 23:25:28 +08:00
跟邮件spam差不多吧?
感觉还是去弄个全一点的垃圾短信集合,贝叶斯搞一把
ETiV
2014-03-26 23:28:05 +08:00
非通讯录里的号码发来的含有手机号的消息,进黑名单?
creamiced
2014-03-27 00:13:28 +08:00
赞同一楼 单纯的关键字容易误伤,还是参考垃圾邮件处理比较好。
另外感觉现成的一些app做得比较好,因为用户基数大,可以靠用户举报。
casparchen
2014-03-27 04:26:19 +08:00
第一条,倡导
snowhs
2014-03-27 19:51:16 +08:00
@ETiV 消息含有某个关键词并且含有手机号或链接,才被过滤。
snowhs
2014-03-27 19:53:28 +08:00
@wklken 值得一试。

@creamiced 反垃圾短信应用需要一些很关键的权限,我不太想把这些权限授予不开源应用。


@casparchen 已添加。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/106029

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX