脑洞大开,把 300w 淘宝 bra 的评论生成词云

2017-04-07 16:05:47 +08:00
 nladuo

今天早上在看《机器学习系统设计》里面的 LDA 的使用,然后发现了里面用到了词云这么个东西,然后搜了搜词云是个什么东西,花了一下午搞了一下之前爬的淘宝 bra 评论数据。结果就是这样的:

代码见: https://github.com/nladuo/taobao_bra_crawler

8252 次点击
所在节点    分享创造
42 条回复
nladuo
2017-04-07 19:58:14 +08:00
@chiv2 很久以前爬的。
nladuo
2017-04-07 19:59:53 +08:00
@ixinshang 就这么多了。打算过段时间看看循环神经网络,试试自动生成淘宝评论。
nladuo
2017-04-07 20:00:13 +08:00
@RE 老司机带带我
xspoco
2017-04-07 20:02:49 +08:00
求套图。。。
zioc
2017-04-07 20:23:13 +08:00
mark 我要学习你
zhidian
2017-04-07 21:14:57 +08:00
看了下楼主的博客,厉害厉害! BTW ,不小心翻到了楼主的文胸销量饼状图……
wizardforcel
2017-04-07 21:29:50 +08:00
如果只是这些词。。也没有什么嘛。

你到底还爬了啥东西?
7blW5Kcai534HdX1
2017-04-07 22:33:55 +08:00
可怕。。。。
viko16
2017-04-07 23:05:09 +08:00
服! mark
Kalv8n
2017-04-08 07:18:10 +08:00
有扒知乎的吗?
g0thic
2017-04-09 22:46:03 +08:00
真他娘的是个人才
JayFang1993
2017-04-10 09:28:14 +08:00
@hzwei 最大的不是『不错』?
hzwei
2017-04-10 11:55:47 +08:00
@JayFang1993 #32 不错也没什么意义啊,自动忽略了
cnZary
2017-04-10 16:26:38 +08:00
@KevinChan 童装可以(
开童车!
nazhenhuiyi294
2017-04-10 17:44:03 +08:00
@linzianplay 童装都是他妈再买,你以为能看到 萝莉正太?
zpfhbyx
2017-04-10 17:51:21 +08:00
我记得有人拔过情趣的图啊- - 就是某宝的。。
yanzixuan
2017-04-10 17:52:47 +08:00
LDA 我都没啥兴趣,我最感兴趣的是 LZ 怎么爬的淘宝。
taobao 貌似对爬取的限制有点大啊。
cnZary
2017-04-10 19:38:48 +08:00
@nazhenhuiyi294 还真可以看到(
nladuo
2017-04-10 20:23:35 +08:00
@yanzixuan 爬的速度慢点儿就没事儿。比如说我现在写的就没有被封。之前 golang 写的单线程也没封,开个协程就封了。
nladuo
2017-04-10 20:24:27 +08:00
@Kalv8n 没爬过。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/353243

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX