本科毕设主题是「网络谣言识别」,完全没有思路,有没有大神可以指点一下迷津,感激不尽

2019-03-09 09:14:58 +08:00
 yx1100

导师比较坑爹,只给了个这么个方向就了无音讯了。

目前的背景情况是:平时的课程「几乎没有」学习过相关的技术,大概只知道可能要用到 Python、机器学习相关的知识,但具体再细分的就不清楚了。

有个学长大概给了个思路:

  1. 拿一些现成的句子
  2. 使用机器学习中的 svm knn 还有优化后的算法进行训练
  3. 拿其他的句子进行比较分析准确率、召回率就好了

  1. 取一些常用的网络谣言
  2. 提取谣言的特征(语义的理解)对谣言进行分类(机器学习中较为常见的 svm 等)
  3. 使用你的优化的特征算法与传统的特征算法进行比较得出结论:你最好

然而我承认比较学渣,也没看的懂他说的意思。。。

所以想问的是,有没有大神指点一下,我这个学长他说的这个每个阶段,具体指的是什么?该做的是什么?比如他说谣言分类用 SVM,这个「分类」和「 SVM 」之间怎么联系起来?有没有什么「相关的推荐的书、视频、课程、论文之类的」可以阅读学习参考的?

说到底就是,我现在到底应该干什么😂,越具体越好。现在完全无从下手

如有帮助,万分感谢🙏

13543 次点击
所在节点    程序员
135 条回复
wizardoz
2019-03-09 21:28:53 +08:00
你自己都无法辨别谣言,你怎么设计出一个能辨别谣言的机器?
janhu9527
2019-03-09 21:47:25 +08:00
我觉得这课题还不如换成欺诈信息识别比较好
谣言的识别真的好难,文笔好的以假乱真,只有实际考察求证才能破解
janhu9527
2019-03-09 21:53:26 +08:00
@janhu9527 实际上阿里的谣言识别机也是利用了大量的知识数据库作为基础
miaobug
2019-03-10 00:07:59 +08:00
我的感觉是...
你师兄的建议比你的水平高一个量级
你导师的思路又比你师兄的建议高一个量级
所以你做出来...应该是基本不可能的
“如果一遇到困难就撒手的话,那永远都一事无成。”如果你大学四年都这个态度,学 CS 专业大概不会看不懂师兄的建议。所以我也跟楼上一些人一样建议花钱找人做吧...
itenyh
2019-03-10 00:19:48 +08:00
都要毕业了,你这个连点思路都没有,如果是你的专业的话,可能我想说一句 你可能不适合做这个,仅供参考
Muninn
2019-03-10 00:21:07 +08:00
师兄的思路应该是可行的

导师说的没看出来。本科论文是不是只需要写一篇思路加 demo,不用实现啊……

传播路径的话,微信是取不到的。

微博能取到但是很难。

媒体之间互相抄能取到但是也很难,需要买到或者自己爬到一定时间的媒体资讯。

有的谣言传播时间很长可以和爆炸新闻区别开来。但是有的新谣言光传播路径真的很难区别特征。

这个用传播路径的思路真的是太难了,怎么都感觉导师应该外行瞎想的。
shyrock
2019-03-10 00:27:01 +08:00
师兄瞎几把支招,谣言识别不在当前大火的 DL 能力范围内。倒是导师的提示有效地把识别谣言本身转换成评估传播路径上的人的可信度问题,这是可以实现的,但是跟机器学习没关系,别瞎蹭热点。
zztt168
2019-03-10 00:38:09 +08:00
前两天去阿里玩,看到他们宣传有谣言粉碎的实验项目。不知道是否有开源的轮子。
我觉得这个题目够难,首先是分词,然后是语料库,接着是算法。
Shynoob
2019-03-10 00:53:21 +08:00
这个想做简单就简单 想做难就难,我觉得你整个词库然后 nlp 对比下差不多了
sunsolzn
2019-03-10 01:20:47 +08:00
这题目简单,
负能量的肯定是谣言必要条件之一,正能量哪怕是假的也不是谣言,而正负能量分析的网上有很多教程。
传播 500 次是必要条件之二,负能量的东东传播几次没关系,传播多了管它是真是假判定成谣言肯定没错,
这么简单的重复率检测应该会吧。
wwhc
2019-03-10 01:31:32 +08:00
@SsuchingYu 随便一搜,就看到知乎上的“知情人士”说:“新京 伪满洲国首都,新京报受日资资助,也可以说是日本在中国的媒体,还有一个南方都市报 这些的媒体不造谣生事怎么能行”
maemolee
2019-03-10 01:46:43 +08:00
谣言的根本特征是它所描述的事实不成立吧……用上一切符合所谓“谣言的语言特征”写一条真实的新闻,它也不会变成谣言啊。
lzx801
2019-03-10 02:08:24 +08:00
https://arxiv.org/pdf/1505.02463.pdf 了解一下 Truth finding,这是 data mining 的一个子领域。
YvesX
2019-03-10 02:27:59 +08:00
都这个时候了,毕业要紧。

首先谣言的定义要小,亩产十万斤或者四千点是牛市起点这种事实错误,你要怎样识别出来呢?尝试拿长辈朋友圈的那些沙雕文章去训练,看训练结果是否能把一些常见的沙雕文章用词找出来,找不出来的话魔改训练集、调参或者加规则(手动滑稽)。
测试模型对上面那些词是否足够敏感,对写作风格明显的沙雕文章能否初步判断,对于将信将疑的沙雕文章,概率波动是否靠谱。展示判断结果时话不要说死,把概率转成符合逻辑的百分比或者高中低的评级。
拿文章标题去搜索引擎或微博爬结果,如有权威媒体的发布或辟谣,将结果强行调整到谣言嫌疑低或高(手动滑稽)。
dallaslu
2019-03-23 15:44:53 +08:00
注[册][一]堆[微][博][僵][尸]号,[发][表]谣言,并[造]势转发。如果有[官][方]帐号[辟][谣],那么……

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/542718

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX