本科毕设主题是「网络谣言识别」,完全没有思路,有没有大神可以指点一下迷津,感激不尽

2019-03-09 09:14:58 +08:00
 yx1100

导师比较坑爹,只给了个这么个方向就了无音讯了。

目前的背景情况是:平时的课程「几乎没有」学习过相关的技术,大概只知道可能要用到 Python、机器学习相关的知识,但具体再细分的就不清楚了。

有个学长大概给了个思路:

  1. 拿一些现成的句子
  2. 使用机器学习中的 svm knn 还有优化后的算法进行训练
  3. 拿其他的句子进行比较分析准确率、召回率就好了

  1. 取一些常用的网络谣言
  2. 提取谣言的特征(语义的理解)对谣言进行分类(机器学习中较为常见的 svm 等)
  3. 使用你的优化的特征算法与传统的特征算法进行比较得出结论:你最好

然而我承认比较学渣,也没看的懂他说的意思。。。

所以想问的是,有没有大神指点一下,我这个学长他说的这个每个阶段,具体指的是什么?该做的是什么?比如他说谣言分类用 SVM,这个「分类」和「 SVM 」之间怎么联系起来?有没有什么「相关的推荐的书、视频、课程、论文之类的」可以阅读学习参考的?

说到底就是,我现在到底应该干什么😂,越具体越好。现在完全无从下手

如有帮助,万分感谢🙏

12293 次点击
所在节点    程序员
135 条回复
ifxo
2019-03-09 10:58:02 +08:00
首先得有可靠消息源吧,不然是不是谣言怎么能分辨呢,除了人工没有办法
ex2vkf
2019-03-09 10:58:50 +08:00
建议去看看推特有没有合适的数据
lxy42
2019-03-09 11:02:53 +08:00
和垃圾邮件识别有一点点类似,关键是谣言就算是普通人也难以识别。简单点的话就按照垃圾邮件识别的套路去做。
FrankFang128
2019-03-09 11:05:10 +08:00
看外链个数和外链域名
Williamongh
2019-03-09 11:18:04 +08:00
@lxy42 这位说的很有道理。建议 LZ 直接搜索学习一下垃圾邮件识别的算法,搞一下。
v2et
2019-03-09 11:23:07 +08:00
怎么感觉做出来都可以发 paper 了……
vicvinc
2019-03-09 11:35:14 +08:00
我来冒充个大神,分词 => KenLM 提取特征向量 => 谣言 Model
dxgfalcongbit
2019-03-09 11:35:14 +08:00
鸵鸟政策就是个谣言,而且还传得很广,人在近距离观察鸵鸟时凭直觉就能明白这是个谣言,用网络信息来辨别这个谣言反倒有些困难。
111qqz
2019-03-09 11:38:37 +08:00
这有点难吧……
summer1988
2019-03-09 11:40:35 +08:00
1. 首先你需要一个爬虫, 采集语料, 监控各大新闻论坛博主
2. 你需要 GOOLE
3. 你需要图书馆
4. 你需要你自己干
catalina
2019-03-09 11:47:21 +08:00
“阿里技术”公号前几天写了一篇讲“谣言粉碎机”的原理的文章:
https://s2.ax1x.com/2019/03/09/ASt27T.jpg
Eugene1024
2019-03-09 11:48:01 +08:00
训练语义识别 先识别简单的,而且你需要想下无论是你的程序也好算法也好是如何判断谣言的,后面可以逐逐渐优化
Monstercat
2019-03-09 11:49:29 +08:00
单纯靠语义分析是不可能的
waruqi
2019-03-09 11:53:59 +08:00
现在什么都要扯上 ai 机器学习 智能 等字样 连毕设也如此了 哎。
mosir
2019-03-09 12:00:34 +08:00
1、收集已被认定的谣言,这个现在数量不少了。
2、利用现有的分词处理模块,这里也可以选几种简单比较一下。
3、然后用几种常见的方法处理训练就好了,推荐你找找贝叶斯、KNN 等关键词,你要有点野心,可以多找些分类器。
4、分析总结,提出可能的改进方向。
本科毕业设计重在利用现有技术进行分析比较,你稍微综合一下就好了,能有点创新那就是锦上添花,妥妥的优秀毕设了。
siyushin
2019-03-09 12:00:41 +08:00
回溯源头,按是不是出自正规媒体加权。
Raffaelloo
2019-03-09 12:01:34 +08:00
本科毕设都这水平了啊,可怕。我觉得吧从社区论坛媒体用户数据画像下手会比从谣言本身下手容易。毕设主要的是过,你懂的,不适合做钻研技术
otakustay
2019-03-09 12:01:45 +08:00
function isFakeBroadcasting(anyThingYouLike) {
return true;
}

我说上面这算法 70%成功率不过分吧?
glfpes
2019-03-09 12:02:37 +08:00
什么是谣言,什么不是,连人自己都不知道。
不是讲的多的观点就是对的。
glfpes
2019-03-09 12:04:03 +08:00
举个例子,老太太摔倒了,是讹人还是真的受害者?这你让机器去判断是不可能的。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/542718

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX