本科毕设主题是「网络谣言识别」,完全没有思路,有没有大神可以指点一下迷津,感激不尽

2019-03-09 09:14:58 +08:00
 yx1100

导师比较坑爹,只给了个这么个方向就了无音讯了。

目前的背景情况是:平时的课程「几乎没有」学习过相关的技术,大概只知道可能要用到 Python、机器学习相关的知识,但具体再细分的就不清楚了。

有个学长大概给了个思路:

  1. 拿一些现成的句子
  2. 使用机器学习中的 svm knn 还有优化后的算法进行训练
  3. 拿其他的句子进行比较分析准确率、召回率就好了

  1. 取一些常用的网络谣言
  2. 提取谣言的特征(语义的理解)对谣言进行分类(机器学习中较为常见的 svm 等)
  3. 使用你的优化的特征算法与传统的特征算法进行比较得出结论:你最好

然而我承认比较学渣,也没看的懂他说的意思。。。

所以想问的是,有没有大神指点一下,我这个学长他说的这个每个阶段,具体指的是什么?该做的是什么?比如他说谣言分类用 SVM,这个「分类」和「 SVM 」之间怎么联系起来?有没有什么「相关的推荐的书、视频、课程、论文之类的」可以阅读学习参考的?

说到底就是,我现在到底应该干什么😂,越具体越好。现在完全无从下手

如有帮助,万分感谢🙏

13541 次点击
所在节点    程序员
135 条回复
fox0001
2019-03-09 13:45:12 +08:00
导师不想你毕业了?要不去看看小马怎么解决假新闻?
KevZhi
2019-03-09 13:46:27 +08:00
说到这,不得不说一下有些目标用户群是中老年人的微信公众号,其内容绝大部分是耸人听闻的假新闻、国际关系类谣言、错误的医疗常识、不符合主流价值观的家庭关系类故事(婆媳关系居多)、标题党、震惊、沸腾。
从我个人来看,微信官方完全是在对这种行为置之不理。这种公众号已经成为产业链了,雇佣会打字的低学历人员,批量生产这些文章,文章质量就是“能过微信反抄袭”就行,一个工作室下有若干这样的公众号。
yuikns
2019-03-09 13:50:42 +08:00
这个问题其实很 straightforward。就是尝试分辨谣言传播者在制造这些句子的时候,不自觉使用的异常用词习惯。如果前面说的假设为真,那么有几千个标注好的训练集,很容易就能弄出一个比乱猜要高得多的预测结果。

很大多数的谣言,其实水平都非常低下。而这种问题主要是吊打各种低级黑子的。

楼上有些没玩过的能不能别乱撺掇...你们都在说啥啊
LingJi
2019-03-09 13:51:52 +08:00
关键是提取谣言的特征,一种是人为定义特征或规则,这是专家系统的思路;还有一种就是采集足够的谣言数据,利用深度学习或机器学习的算法,自动提取特征。一个可用的系统,可能需要两者结合起来。首先,需要针对微信公众号、微博喜欢传谣的人,比如公知之类的,爬取他们的数据,制作成一个数据集,如果能搞个几十万或数百万的数据集,基本上可以进入下一步了。
no1xsyzy
2019-03-09 13:54:46 +08:00
机器学习不就是做特征识别吗?
特性 不是 特征。
另外,我拍脑袋想到的:
1. 谣言具有更强的文字情绪特征,比如 “不转不是中国人” “震惊!” “竟然”
2. 人名 查无此人,组织名 查无此组织,地名 查无此地
……另外我觉得做出来可以和 OpenAI 的那个假新闻生成器相提并论了。
oisc
2019-03-09 14:14:47 +08:00
自然语言处理很多工作其实都是对语料的处理和特征工程,机器学习算法也是依赖特征的。
1. 我建议你先从平衡语料的构建开始,可以分几个主题比如关于医学、新闻等每个主题去收集一些正负样例,样例的正负比例尽量均衡。每个样例标注上所属的主题类别、是否是假新闻、来源、时间等。然后把你构建的语料进行划分,可以划分为训练集和测试集,也可以留一部分做开发集,如果你不想用交叉验证的话。

2. 对你构建的语料库进行预处理,包括分词、词性标注等

3. 基于一个有监督的机器学习算法完成模型的训练和性能评价,比如最简单的先用 ngram、tfidf,lda 等方法提取离散特征,然后用 SVM 分类,或者用现在比较流行的 LSTM CNN4text 等模型。
等你熟悉流程和数据之后,就可以从数据上做一些文章,看哪些方面可以改进的。
oisc
2019-03-09 14:26:13 +08:00
如果不做中文的,其实已经有现成的数据集可以用了,https://github.com/KaiDMML/FakeNewsNet
liyi
2019-03-09 14:43:57 +08:00
感觉可以降低问题难度,先做个简化版,把进行谣言识别的范围缩小到对指定谣言的识别,例如只识别转基因相关的谣言,就先识别话题,不是转基因的都不用管,然后再识别是不是谣言
这样范围小一点,就算机器学不会,你自己多看看也能找到规律,能有点事做
yangyaofei
2019-03-09 14:45:27 +08:00
首先爬数据,思路可以是根据用户发帖的数量个关系网来确定,水军的特征和正常用户的特征是不一样的
murmur
2019-03-09 14:53:03 +08:00
@LingJi 谣言哪里有什么特征 同样的新闻 正规渠道发表的 只要地名换一下 时间换一下 就成了谣言
lihua
2019-03-09 14:55:57 +08:00
人日亩产万斤了解一下
yepinf
2019-03-09 15:16:15 +08:00
哈哈
我对这个也相当感兴趣,
lz 可以来个联系方式,咱们一起折腾哈
23f0baf3
2019-03-09 15:50:39 +08:00
你要搞清楚毕业设计要的是什么,要的是看起来有一定工作量的东西,要的是看起来合理并且过查重的论文,除此以外随便糊吧。网络谣言识别想办法去哪里找个好的数据集,找不到就自己写个爬虫去爬一些数据集(就是几万条正常新闻和谣言,从一些谣言举报平台之类的爬)。找个现成的分词算法,找些现成的分类器,把数据全扔进去,出个结果,不同分类算法各自准确率。最后出来的结果又不用发表,又不用公开代码,言之有理即可。
请自觉遵守学术诚信和学术道德,不对此造成的一切后果负责,后果自负。
bxb100
2019-03-09 15:54:15 +08:00
我觉得你能有个百万谣言数据都可以不用做结论就能毕业了
robinshi2010
2019-03-09 16:04:33 +08:00
时间不错+完全没思路=挂
jssyxzy
2019-03-09 16:23:29 +08:00
你的导师和学长应该告诉你第一步是读论文吧。
jssyxzy
2019-03-09 16:25:59 +08:00
就是总结出特征,然后用 svm 之类就可以,

了解下 svm 之类算法,
读下谣言有哪些特征,自己发散思考下
jssyxzy
2019-03-09 16:26:14 +08:00
你学长说的很对。
murmur
2019-03-09 16:34:28 +08:00
"网络谣言诞生具有一些典型特征,传播特性是其中一个重要特征。"
你们导师太小看现在的网络了 现在是记者造谣 辟谣成本极高
还记得缝肛门那个案子吧 直接就是记者造谣 这谣言直接毁了一个医生
还有绵阳的医生被逼自杀 现在那个营销号还逍遥法外
一个谣言
要先转到对应的公安局 然后公安去调查所属地是不是真的有案子发生
如果不是 还要查全国有没有类似的案子 被调换了时间 地点 甚至有些是国外的案子故意隐藏重要信息 甚至将图模糊化来蒙蔽视听
都没有 就跟北京那个编造外卖给差评杀你全家的 直接抓人关起来完事
所以说 单从微博一个平台来看 除了各家警方的蓝 V 和新闻联播这种保守型媒体 没一个可信的 尤其是新京报 恶名罩住
Aixtuz
2019-03-09 16:43:01 +08:00
对其中一种谣言的特征有印象:

内容大量重复,时间地点只有模糊值:

比如只有月日周没有年,只有昨天、这星期、月底前之类的模糊时间,
比如某某路、某某公园之类的模糊地点。

且在泛滥的谣言,往往会因为无脑转发而在原文之外的发布平台或转发人补充内容中,
出现各种不同的年月日和省市区等精确值。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/542718

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX