从拉勾上扒的互联网公司基本信息数据

iyannik0215

2016-02-27 11:56:54 +08:00

@maguowei 好吧，没接触过 Python ，不过想拿 Golang 做做扒数据的想法，但是不会正则好尴尬。

maguowei

2016-02-27 12:01:48 +08:00

@iyannik0215 Go 可以试一下 https://github.com/PuerkitoBio/goquery

Ouyangan

2016-02-27 12:16:23 +08:00

说说反爬虫经验吧,前辈

GhostEX

2016-02-27 12:28:12 +08:00

感觉这些信息没什么用啊，另求反爬经验

HanSonJ

2016-02-27 12:29:10 +08:00

想问问老前辈拉勾上有反爬虫机制吗？

maguowei

2016-02-27 12:31:02 +08:00

@HanSonJ 貌似没啥反扒机制, 我爬的时候只是简单粗暴

maguowei

2016-02-27 12:31:17 +08:00

@Ouyangan 爬虫的最高境界就是模拟真实人的行为，反扒措施当然就是去甄别那些不像人的行为。但是只要是开放的数据，反扒只能做到无限度的提升爬取成本，而无法做到杜绝。

maguowei

2016-02-27 12:33:27 +08:00

@HanSonJ 我之前看到一个很阴险的，就是明明判断出来你时爬虫了，但是并不是禁止，而是给你掺上假的数据。这个太损了哈哈哈

maguowei

2016-02-27 12:41:07 +08:00

@GhostEX json 文件里的数据更全一些，我觉得有很多有用的信息，比如来统计一下互联网公司地域、行业分布，估算当前全国的从业人数，多少公司顺利走到了 x 轮，都说上海没啥互联网公司，你可以实际 count 一下有多少。

timqian

2016-02-27 13:02:54 +08:00

感觉可以定期爬一组新的数据，然后看看公司的存活状况。
用数据来验证 **互联网行业泡沫性**

est

2016-02-27 14:26:46 +08:00

@maguowei 我之前提到过这个。的确太损了。

有意思。 11M 的 csv 收了。多谢。

est

2016-02-27 14:45:58 +08:00

粗略统计了一下：

$ python -c "for l in __import__('csv').reader(open('1.csv')): print l[3].decode('utf8', 'ignore')[:2].encode('utf8')" | sort | uniq -c | sort -nr

27568 北京
14449 上海
10772 深圳
6847 广州
5065 杭州
2986 成都
1770 武汉
1677 南京
1120 厦门
1068 西安
1022 长沙
971 苏州
828 郑州
805 重庆
763 天津
600 青岛

北上深广杭你们赢了

est

2016-02-27 14:47:31 +08:00

行业分布

$ python -c "for l in __import__('csv').reader(open('1.csv')): print '\n'.join(x.strip() for x in l[4].split(','))" | sort | uniq -c | sort -nr

41923 移动互联网
19409 电子商务
9790 O2O
9185 金融
9123 企业服务
6912 其他
5085 数据服务
4845 教育
4781 文化娱乐
3876 硬件
3515 生活服务
3421 医疗健康
3277 广告营销
3228 游戏
2498 社交网络
1418 旅游
1165 信息安全

est

2016-02-27 14:49:09 +08:00

资金情况

~/lq_dev/gist/lagou-stats[master*]$ python -c "for l in __import__('csv').reader(open('1.csv')): print l[6]" | sort | uniq -c | sort -nr

33994 未融资
18825 不需要融资
15187 天使轮
8297 A 轮
5033 上市公司
2615 B 轮
1355 D 轮及以上
1031 C 轮

est

2016-02-27 14:50:21 +08:00

人数

$ python -c "for l in __import__('csv').reader(open('1.csv')): print l[5]" | sort | uniq -c | sort -nr

32769 15-50 人
19616 50-150 人
14808 少于 15 人
10870 150-500 人
4640 500-2000 人
3633 2000 人以上

看来是小微企业为主。

abelyao

2016-02-27 15:15:30 +08:00

像 @est 一样统计出结果就有趣多了。

NovemberEleven

2016-02-27 18:00:27 +08:00

@est 溜啊

111111111111

2016-02-27 18:18:02 +08:00

@est 学习了

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/259458

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.