我爬取了我的 qq 空间 139 万说说数据做了一个年终盘点,但是总觉得分析的不知所云

2019-01-01 21:38:33 +08:00
 equationl

昨天花费了整整一天时间用前几天怕的空间说说数据做了这么一个盘点: 2018,年终,不过又是一个叉子

这也不是我第一年尝试用这种方式做年终盘点了,前年我也写了这么一篇: 对 QQ 空间指定好友 2017 年说说数据的分析

但是,总觉得自己分析完全不知所云,完全是在浪费数据,基本上就是在纯粹的罗列数据而已。

我想问问各位 v2exer,我能否用这些数据分析出来一些有意思的东西呢?

还有在分析类似数据时应该从哪一方面入手呢?

4993 次点击
所在节点    Python
18 条回复
VDimos
2019-01-01 21:41:17 +08:00
闷声发大财,你这是生怕腾讯不知道你爬了它数据吗
jugelizi
2019-01-01 21:42:18 +08:00
分词
按时间维度 各个节日大家在说什么
按性别 也可以分析热点什么的
equationl
2019-01-01 21:49:06 +08:00
@VDimos 嗯?怎么说?
equationl
2019-01-01 21:51:34 +08:00
@jugelizi 分词我使用 jieba 进行分词时发现高频词都是类似 一个、我们、自己 之类的“无意义”的词,是不是我使用方式不对?
TimePPT
2019-01-01 21:56:33 +08:00
@equationl 停用词,了解一下
equationl
2019-01-01 22:03:56 +08:00
@TimePPT 试过,效果不太理想
TimePPT
2019-01-01 22:13:19 +08:00
@equationl 停用词要自己按照需求做筛检的啊,「我们」这种一般都会在停用词表里被过滤的。
equationl
2019-01-01 22:21:30 +08:00
@TimePPT 嗯,其实我的做法是导出词频前 50 的词组,然后手动排除我认为没意义的词,然后我发现排除完后基本就不剩几个词了...
我还是学习一下停用词的用法吧
muhaocd
2019-01-01 22:29:02 +08:00
只取形容词、动词、名词分别比较?算一下 tgi 指数?
TimePPT
2019-01-01 22:42:25 +08:00
equationl
2019-01-01 22:51:44 +08:00
@TimePPT 好的,谢谢大佬~
oyhw92
2019-01-01 23:47:40 +08:00
分词可以筛选一下,分享的归一类消极的归一类,看看大家都是开心了发还是难过了发?
envylee
2019-01-01 23:55:22 +08:00
@VDimos 我也就好笑了,都是做发财梦做傻了吧,麻烦开口前分清楚什么叫「数据」什么叫「用户数据」好吧
jookr
2019-01-02 01:11:17 +08:00
以前我的 QQ 空间小偷程序因为很多关键词被机房掐了 N 次网线
atonku
2019-01-02 09:02:45 +08:00
你的空间里废话有点儿多哦
equationl
2019-01-02 11:11:55 +08:00
@atonku 怎么说? qq 空间不应该就是用来说废话的吗?
atonku
2019-01-02 16:22:17 +08:00
@equationl 我说错话了,QQ 空间确实是用来干这个的,我为我的措辞道歉
equationl
2019-01-02 18:39:37 +08:00
@atonku 额...没这么严重吧

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/522940

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX