本科毕业设计,请 V 站大神给点意见

2020-04-06 15:39:40 +08:00
 mdah233

楼主是普通大学软件工程专业大四学生,这是我的的毕业设计作品: http://find.marwin.cn/ .爬取了微博热搜榜,通过对热搜微博的评论进行情感分析,然后统计 postive 和 negetive 评论的比例,在左侧导航栏使用 emoji 直观地给出大致情况,从 positive 到 negative 分别是👏😃👤😡👿。本人之前也是从里没有接触过算法,学习了两个星期写了一个基于朴素贝叶斯的简单文本分类算法,而且目前训练集数据不足,判断的准确率比较低,所以我点击评论右侧 positive 和 negtive 标签可以进行误判的反馈。

问题来了,这个毕业设计开题的时候我选择是做一个使用 NLP 技术自动分析舆情的系统,快速发现舆论趋势不对劲的话题。但是后来越做发现越来越偏离当时的主题,主要是我技术有限,做成了这个样子。学校老师开题的时候说毕业设计主要有两个方向,一个是具有商业价值的应用类,一个是学术探索类。我的这个毕业设计商业价值几乎没有,学术更不谈了,所以我怕到时候答辩的时候比较困难。

V 站大神很多,看能不能给点意见,我这个毕业设计还能进行哪些方面的补救,还可以增加哪些功能。

4531 次点击
所在节点    分享创造
28 条回复
daimiaopeng
2020-04-07 15:43:36 +08:00
@mdah233 现在热搜都自带表情了
mdah233
2020-04-07 16:12:42 +08:00
@daimiaopeng 我看了一下手机微博热搜的表情包,感觉应该是根据热搜里面的博文使用的表情包来确定的,只有部分有。我这里的表情包只是想直观地反映评论分布,背后其实是就是一个表示比例的双精度浮点数。
zcfnc
2020-04-07 17:44:09 +08:00
貌似和我之前在学校做过一个网易云课堂评论分析的课程设计有点像,不过我没有做前台,只是通过对某个课程的评论然后提取出大家对这门课存在哪些问题,然后老师对症下药什么的。
1. 做这个情感分析的话一定要语料够多,即使微博的训练集不足也可以去网上找一些类似的带标签的预料作为训练,做这个数据主要是需要数据标签多才比较准确一些
2. 然后弄到了别的语料之后里面的训练集的处理,分词的实现,textrank 或者 pagerank 啊,为什么用这种技术,也很简单可以往里面加一加(其实如果做 nlp 的话分词很重要的)
3. 主页上可以加个评论词云什么的,可以展现出大家普遍对这个热点有什么想说的,python 几行代码就搞定了
4. 答辩的话感觉就是和老师吹比,有些东西你没有用到但是你能吹的出来自圆其说老师到时候也不会看你的代码的。我学校比较垃圾去年毕业的因为那个翟博士学校还搞了个预答辩说什么最严一届答辩学校要卡多少人不给毕业巴拉巴拉,其实也就那样,你这个里面的东西还是有点少,自己想办法补充一些,难的东西不会做那就把简单的东西多堆砌堆砌也差不多的,本科我觉得毕业是真的简单。我去年帮别人写了个论文,然后自己答辩完立马又帮那个同学辅导答辩的,最后也拿了很高的分。
fromdark
2020-04-07 19:21:35 +08:00
如果都是套用框架的话,毕设也就过于简单了
benen005g
2020-04-07 22:57:11 +08:00
做的不错了
mdah233
2020-04-07 23:53:31 +08:00
@zcfnc 非常感谢你的建议
mdah233
2020-04-08 00:11:11 +08:00
@fromdark 怎么说呢,我使用的框架都是一些比较基础的框架,比如爬虫就用了发送 http 的库和解析 json 的库,这两个库如果直接拼接 http 协议和拿 json 当字符串解析的话也可以实现功能但是没有必要,类似有高级语言就不用汇编写代码。web 方面 spring 已经是基础设施一样的存在肯定绕不开的。算法部分除了分词都是我自己写的,确实刚刚学习机器学习,算法都需要慢慢来,后面会考虑把分词部分重构成自己写的算法。
viewan
2020-04-08 12:32:35 +08:00
emoji 第一个表示啪?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/659838

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX