100G 数据如何先随机读取 1%?

100G 数据如何先随机读取 1%?今天番茄加速就来给大家介绍下。

　　对于动辄就几十或几百个 G 的数据，在读取的这么大数据的时候，我们有没有办法随机选取一小部分数据，然后读入内存，快速了解数据和开展 EDA ?

　　使用 Pandas 的 skiprows 和概率知识，就能做到。解释具体怎么做，如下所示，读取某 100 G 大小的 big_data.csv 数据

　　使用 skiprows 参数，

　　 x > 0 确保首行读入，

　　 np.random.rand() > 0.01 表示 99% 的数据都会被随机过滤掉

　　言外之意，只有全部数据 1% 才有机会选入内存中。

　　 import pandas as pd

　　 import numpy as np

　　 df = pd.read_csv("big_data.csv",

　　 skiprows =

　　 lambda x: x>0and np.random.rand() > 0.01)

　　 print("The shape of the df is {}.

　　 It has been reduced 100 times!".format(df.shape))

　　使用这种方法，读取的数据量迅速缩减到原来的 1% ，对于迅速展开数据分析有一定的帮助。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/732198

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.