本科毕设主题是「网络谣言识别」,完全没有思路,有没有大神可以指点一下迷津,感激不尽

2019-03-09 09:14:58 +08:00
 yx1100

导师比较坑爹,只给了个这么个方向就了无音讯了。

目前的背景情况是:平时的课程「几乎没有」学习过相关的技术,大概只知道可能要用到 Python、机器学习相关的知识,但具体再细分的就不清楚了。

有个学长大概给了个思路:

  1. 拿一些现成的句子
  2. 使用机器学习中的 svm knn 还有优化后的算法进行训练
  3. 拿其他的句子进行比较分析准确率、召回率就好了

  1. 取一些常用的网络谣言
  2. 提取谣言的特征(语义的理解)对谣言进行分类(机器学习中较为常见的 svm 等)
  3. 使用你的优化的特征算法与传统的特征算法进行比较得出结论:你最好

然而我承认比较学渣,也没看的懂他说的意思。。。

所以想问的是,有没有大神指点一下,我这个学长他说的这个每个阶段,具体指的是什么?该做的是什么?比如他说谣言分类用 SVM,这个「分类」和「 SVM 」之间怎么联系起来?有没有什么「相关的推荐的书、视频、课程、论文之类的」可以阅读学习参考的?

说到底就是,我现在到底应该干什么😂,越具体越好。现在完全无从下手

如有帮助,万分感谢🙏

12261 次点击
所在节点    程序员
135 条回复
murmur
2019-03-09 09:54:08 +08:00
人都识别不了谣言
机器怎么识别
难道是先用爬虫爬江宁婆婆的微博 然后和被识别文章对比?
zjsxwc
2019-03-09 10:01:41 +08:00
监督学习 能够 判断 这句 “明天股票要涨了” 算不算谣言?



如果可以的话,楼主可以发财了! 233333333
php01
2019-03-09 10:02:25 +08:00
连人都识别不了谣言,你这毕设主题也太托大了吧
php01
2019-03-09 10:03:43 +08:00
比如,惊!赶紧看!世界上第一个可以识别谣言的程序!这本身就是谣言
bumz
2019-03-09 10:07:56 +08:00
如果把谣言定义为「与事实不符的言论」,那想机器识别谣言,先得具有强人工智能,既能自己了解和考证事实,又能完全理解人类语言。然而人类语言的模糊性决定了许多陈述压根无从判定,例如「明天下雨」,哪下雨,什么时候下雨,下多少算下雨?有些地方成天下雨,是不是也算?

如果把谣言定义为「看上去像谣言的言论」,「带有煽动性语言的言论」,那么简单地只要关键词匹配,复杂一点的用大量样例让机器自己学习,可以用统计学方法,也可以用正火的神经网络
lrxiao
2019-03-09 10:12:43 +08:00
necomancer
2019-03-09 10:19:15 +08:00
@yx1100 你要是用校园网应该能直接下啊?学校不一般都买版权的吗?..... 要不去找找 sci-hub 一类的网站吧
Yvette
2019-03-09 10:19:36 +08:00
你搜一些用 SVM 做 Sentimental Analysis 的(英文)博客看看就好,很多都会把代码贴上去,动手试试大概就理解一些了。或者看看吴恩达的讲义,大概知道是什么东西之后就能看懂你学长给的思路了。本质上跟你的这个差不多,就是中英文的 NLP 可能有些区别。
zst
2019-03-09 10:19:50 +08:00
讲道理如果是公众号文章的话,开头一堆花花绿绿的求关注的八成都是谣言
cnkuner
2019-03-09 10:20:50 +08:00
这玩意如果你考虑上机器学习,就要涉及自然语意、分词、词性、表达情感这些东西。建议你总结个关键词列表比较容易,比如震惊、致癌、不转不是中国人、删前速看这种。
reechangs
2019-03-09 10:21:39 +08:00
这个题目选的真的糟糕......
pkokp8
2019-03-09 10:24:17 +08:00
爬取信息,上传公安局,网警进行核查,等待并爬取书面结果,返回
scdylk
2019-03-09 10:35:05 +08:00
都三月了 现在才开始看理论来不及吧 先看 python 基本使用 看看 numpy jieba sklearn nltk 的基本使用方法 最后找找文本分类的几个例子套用进去。
asdqaz
2019-03-09 10:39:26 +08:00
反向对比
科学没提过,就判定谣言
Lax
2019-03-09 10:47:56 +08:00
事实判断没办法做啊!

从谣言定义来看,可以暂时抛开事实判断这一步。
找个角度,比如可以先看因果论证(证据 /推理链)是不是完整,缺乏证据或推理不完整的判定为谣言。
比如楼上说“明天股票要涨了”缺前提条件和推理过程,直接就分到谣言里。
Lax
2019-03-09 10:49:25 +08:00
@reechangs “这个题目选的真的糟糕......” ---- 这个选题做好了怎么也给个图灵奖
juju123
2019-03-09 10:50:34 +08:00
这个主题很坑,目前谣言识别主要还是靠人工,不过系统可以作为辅助。系统做简单点,建一个谣言关键词库,一个文章里包含谣言关键词的比例达到多少可能是谣言。
xianxiaobo
2019-03-09 10:53:35 +08:00
找一个谣言库,找一个不是谣言的库,反复练习?
R18
2019-03-09 10:54:32 +08:00
调用各大厂商的接口 :)
gam2046
2019-03-09 10:57:03 +08:00
谣言怎么定义?

是基于客观世界的事实做出的判断,而不是特定的语法结构或句式。换而言之,这个真的可以用机器学习嘛?

举个例子来说,今天我说“朝鲜把美国从地球上抹除了”,这显然是谣言,但是如果明天,这件事真的发生了,那就不是谣言了。但是这句话本身并没有变,而是客观世界发生了改变。

那么问题来了,机器学习的判断依据,也就是客观世界的每时每刻的变化,要源源不断的进行输入,这是否有可能实现?我简单的理解,基于神经网络的机器学习,最终就是一个多项式求和。然而由于判断依据一直在发生改变(客观世界一直在变化),那么这个多项式中每一项的权重都在大幅度的变化,这个多项式最终是否真的能够收敛?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/542718

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX