怎么向 sklearn 导入数据呢?

2016-01-10 09:17:00 +08:00
 KIDJourney

tutorial 里面用的都是内置的数据,我不是太明白怎么把自己的数据给他。

我的数据集是这样的

39,State-gov,Bachelors,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,0
50,Self-emp-not-inc,Bachelors,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,0

对应

请问我该怎样用 sklearn 来导入这组数据呢?

3943 次点击
所在节点    Python
12 条回复
billgreen1
2016-01-10 09:37:25 +08:00
推荐用 pandas , 可以读取 csv ,数据库,...,各种数据源。

读取后,是一个 dataframe , 有一个.values 属性,返回的是一个数组。
KIDJourney
2016-01-10 09:48:46 +08:00
@billgreen1 多谢,我去看看文档。
话说数据集里面像”婚姻情况“这种特征是不是应该建一个字典然后把 index 放到训练集里面?
这个 pandas 会自动做吗
staticor
2016-01-10 13:33:00 +08:00
提供一段代码供参考, 如果分组型字符变量的话要用 0, 1, ... 来离散表示:



https://gist.github.com/staticor/ee9730d8ef0b01222428
sleeperqp
2016-01-10 14:06:18 +08:00
@KIDJourney 可以的 你去看下 pandas 例子就知道
KIDJourney
2016-01-10 14:41:03 +08:00
@sleeperqp
@staticor

十分感谢
sleeperqp
2016-01-10 19:44:55 +08:00
用 pandas 读完 csv 然后放入 numpy 就可以了~ 具体的你可以看看例子
yech1990
2016-01-10 22:01:43 +08:00
@billgreen1 sklearn 本身就是依赖 pandas 的

@KIDJourney tutorial 写得很清楚, 建议再仔细看看. 还有就是你想 train 什么模型, 得先搞清楚
KIDJourney
2016-01-11 08:25:49 +08:00
@yech1990 好的。多谢
billgreen1
2016-01-11 13:13:52 +08:00
@yech1990 sklearn 不依赖 pandas ,是依赖 scipy 的。
Michael728
2016-01-13 14:02:17 +08:00
@sleeperqp 发现这里真是什么大牛都有呀。最近在学 python ,但是数据分析入门感觉挺慢。/(ㄒoㄒ)/~~
sleeperqp
2016-01-13 15:02:10 +08:00
@Michael728 我也是新手弱弱 0 0 多写就好了 最好找点东西做 比如去 kaggle 上找个比赛做做 这样做得快 我觉得主要还是对数据的跟算法的两个理解结合起来才能做好这件事
KIDJourney
2016-01-13 23:07:27 +08:00
@Michael728 我现在也只是套模型而已,建议先用这些东些做出点东西,有了成就感,再去深入了解底层的知识,这样比较好。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/249626

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX