Python 爬虫实践之:简书用户画像

2017-06-13 13:39:23 +08:00
 keisuu

最近用 Python 写了一个简书用户的爬虫,单机耗时 30 小时抓取了简书 30 万用户的数据(设置了适当的下载延迟,所以耗时较长。当然了,主要是避免简书服务器造成不必要的压力)。简书用户用户量我不知有多少,这 30 万只是其中相对活跃的一小部分,但个人认为这份数据还是具有一定的代表性

http://mp.weixin.qq.com/s/N_nomh6aHYIUS1FRFC067Q

7262 次点击
所在节点    Python
15 条回复
gaoyadianta
2017-06-13 14:16:37 +08:00
玩 python 多久了,看着还挺有意思的嘛
kokdemo
2017-06-13 14:43:29 +08:00
这个应该算是用户统计,还谈不上画像。

但是能爬了这么多数据也挺有意思的……
xiaoyu9527
2017-06-13 15:03:05 +08:00
我现在想抓微博的网红和模特和 COSER 然后抓他们发的套图。 你们有没有思路?
xiaoyu9527
2017-06-13 15:03:25 +08:00
然后做一个瀑布流网站。
xiaoyu9527
2017-06-13 15:13:42 +08:00
@keisuu 有没有思路
lzjun
2017-06-13 15:31:26 +08:00
有点意思
keisuu
2017-06-13 15:32:10 +08:00
@gaoyadianta 努力成长的菜鸟一枚
keisuu
2017-06-13 15:33:42 +08:00
@xiaoyu9527 第一步获取数据( github 有开源的微博爬虫),第二步用 web 框架( django、flask )搭建一个网站将抓的数据展示出来。
xiaoyu9527
2017-06-13 16:58:04 +08:00
@keisuu 就是没有思路怎么整理数据(如何知道他是女模特或者 COSER )
haoba
2017-06-13 18:05:09 +08:00
@xiaoyu9527 只抓指定的几个人的 feed,或者关联的就再抓上他关注的人的 feed。然后拉回本地分析一下图。
zzljzeng
2017-06-13 18:10:19 +08:00
好 6666
l32606
2017-06-14 03:24:30 +08:00
画图用的是什么?
xiaoyu9527
2017-06-14 10:10:36 +08:00
@haoba 我目前的思路也是先抓 1 人再抓剩下的人。这种思路。
longchisihai
2017-06-14 17:15:44 +08:00
同问怎么画图的
bget
2017-06-20 07:13:47 +08:00

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/368071

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX