本科毕设主题是「网络谣言识别」，完全没有思路，有没有大神可以指点一下迷津，感激不尽

murmur

2019-03-09 09:54:08 +08:00

人都识别不了谣言
机器怎么识别
难道是先用爬虫爬江宁婆婆的微博然后和被识别文章对比？

zjsxwc

2019-03-09 10:01:41 +08:00

监督学习能够判断这句 “明天股票要涨了” 算不算谣言？

如果可以的话，楼主可以发财了！ 233333333

anteros

2019-03-09 10:02:25 +08:00

连人都识别不了谣言，你这毕设主题也太托大了吧

anteros

2019-03-09 10:03:43 +08:00

比如，惊！赶紧看！世界上第一个可以识别谣言的程序！这本身就是谣言

bumz

2019-03-09 10:07:56 +08:00

如果把谣言定义为「与事实不符的言论」，那想机器识别谣言，先得具有强人工智能，既能自己了解和考证事实，又能完全理解人类语言。然而人类语言的模糊性决定了许多陈述压根无从判定，例如「明天下雨」，哪下雨，什么时候下雨，下多少算下雨？有些地方成天下雨，是不是也算？

如果把谣言定义为「看上去像谣言的言论」，「带有煽动性语言的言论」，那么简单地只要关键词匹配，复杂一点的用大量样例让机器自己学习，可以用统计学方法，也可以用正火的神经网络

lrxiao

2019-03-09 10:12:43 +08:00

https://news.umich.edu/fake-news-detector-algorithm-works-better-than-a-human/
(逃

necomancer

2019-03-09 10:19:15 +08:00

@yx1100 你要是用校园网应该能直接下啊？学校不一般都买版权的吗？..... 要不去找找 sci-hub 一类的网站吧

Yvette

2019-03-09 10:19:36 +08:00

你搜一些用 SVM 做 Sentimental Analysis 的（英文）博客看看就好，很多都会把代码贴上去，动手试试大概就理解一些了。或者看看吴恩达的讲义，大概知道是什么东西之后就能看懂你学长给的思路了。本质上跟你的这个差不多，就是中英文的 NLP 可能有些区别。

zst

2019-03-09 10:19:50 +08:00

讲道理如果是公众号文章的话，开头一堆花花绿绿的求关注的八成都是谣言

cnkuner

2019-03-09 10:20:50 +08:00

这玩意如果你考虑上机器学习，就要涉及自然语意、分词、词性、表达情感这些东西。建议你总结个关键词列表比较容易，比如震惊、致癌、不转不是中国人、删前速看这种。

reechangs

2019-03-09 10:21:39 +08:00

这个题目选的真的糟糕......

pkokp8

2019-03-09 10:24:17 +08:00

爬取信息，上传公安局，网警进行核查，等待并爬取书面结果，返回

scdylk

2019-03-09 10:35:05 +08:00

都三月了现在才开始看理论来不及吧先看 python 基本使用看看 numpy jieba sklearn nltk 的基本使用方法最后找找文本分类的几个例子套用进去。

asdqaz

2019-03-09 10:39:26 +08:00

反向对比
科学没提过，就判定谣言

Lax

2019-03-09 10:47:56 +08:00

事实判断没办法做啊！

从谣言定义来看，可以暂时抛开事实判断这一步。
找个角度，比如可以先看因果论证（证据 /推理链）是不是完整，缺乏证据或推理不完整的判定为谣言。
比如楼上说“明天股票要涨了”缺前提条件和推理过程，直接就分到谣言里。

Lax

2019-03-09 10:49:25 +08:00

@reechangs “这个题目选的真的糟糕......” ---- 这个选题做好了怎么也给个图灵奖

juju123

2019-03-09 10:50:34 +08:00

这个主题很坑，目前谣言识别主要还是靠人工，不过系统可以作为辅助。系统做简单点，建一个谣言关键词库，一个文章里包含谣言关键词的比例达到多少可能是谣言。

xianxiaobo

2019-03-09 10:53:35 +08:00

找一个谣言库，找一个不是谣言的库，反复练习？

R18

2019-03-09 10:54:32 +08:00

调用各大厂商的接口 :)

gam2046

2019-03-09 10:57:03 +08:00

谣言怎么定义？

是基于客观世界的事实做出的判断，而不是特定的语法结构或句式。换而言之，这个真的可以用机器学习嘛？

举个例子来说，今天我说“朝鲜把美国从地球上抹除了”，这显然是谣言，但是如果明天，这件事真的发生了，那就不是谣言了。但是这句话本身并没有变，而是客观世界发生了改变。

那么问题来了，机器学习的判断依据，也就是客观世界的每时每刻的变化，要源源不断的进行输入，这是否有可能实现？我简单的理解，基于神经网络的机器学习，最终就是一个多项式求和。然而由于判断依据一直在发生改变（客观世界一直在变化），那么这个多项式中每一项的权重都在大幅度的变化，这个多项式最终是否真的能够收敛？