sklearn 文本分类器做预测时，如何拿到预测结果。。。

我知道这个问题比较奇怪。。。

最近在拿 sklearn 做中文文本分类器，
网上找到的例子都是拿带标签的数据，二八划分后，八成用于训练模型，两成用于测试，
然后分析测试结果看精确度。

现在，我已经使用训练数据做好了模型训练（存在文本分类器的对象了），
拿一段之前数据集里面没有的文本数据，使用训练好的文本分类器做类别预测，
问题是如何拿到预测的类别的名称呢。。。

代码如下：

# cls 是之前已经训练好的文本分类器对象
pred = clf.predict(X_new)

怎样从预测结果 pred （ ndarray ）获取到分类的类别名称呢？

我有尝试过如下的方式去获取：

label_list = list()
for index in pred:
    label_list.append(training_data.target_names[index])
total = len(label_list)
label_counts = Counter(label_list)

print basename(file_path)
for label, cnt in label_counts.most_common(3):
    print '%s of %.4f' % (label, float(cnt)/total)

主要就是用测试结果比对训练数据的标签： training_data.target_names
但是这样出来的预测类别名称显然不对（测试了多次，包括拿训练数据也再次做了预测，基本都不对）。

不知道哪位可以指点一二，感激不尽～～～

h4x3rotab

2016-01-27 20:46:48 +08:00

给点上下文，不然不能理解你说的是什么问题

sometimesna1ve

2016-01-27 21:00:54 +08:00

@h4x3rotab 前面就是加载 training_data ，然后用 training_data 做文本分类器的模型训练，
代码很简单，网上一搜一大把

我的问题就是上面说的，
有了训练好的分类器后，用这个分类器去预测一段新的文本，
分类器的输出 pred 是一个 ndarray ，怎么能映射到训练数据的类别呢？

3pointer

2016-01-27 23:50:01 +08:00

用的什么分类？ pred 输出的是类别的概率

ike

2016-01-28 00:20:06 +08:00

@3pointer predict_proba 才返回概率。

ike

2016-01-28 00:27:52 +08:00

至少我没看出这段代码有什么问题。支持你“显然不对”的观点的论据是什么？就是这段代码的结果吗？既然你说 accuracy, 有没有试过直接在 label 上计算 accuracy_score(Y_true, Y_pred)？你的 label 是从 0 开始还是从 1 开始？

KIDJourney

2016-01-28 00:30:18 +08:00

training_data.label[pred]

3pointer

2016-01-28 01:19:54 +08:00

@ike 你说的对，我记错了

billgreen1

2016-01-28 07:26:09 +08:00

我尝试理解一下题主的问题：
skearn 分类，要求 target 是数值型，但题主的 target 是 label ，可能是字符型。比如:A,B,C
预测出的结果可能是 1 ， 2 ， 3....，题主想把 1,2,3 映射到 A,B,C

可以在准备数据的时候把 target 先转换一下。预测结果再转换回去。

billgreen1

2016-01-28 07:32:24 +08:00

http://scikit-learn.org/stable/modules/preprocessing_targets.html#preprocessing-targets

sometimesna1ve

2016-01-28 08:04:01 +08:00

感谢楼上各位的回复！

完整的情况是这样的：
0. sklearn 官方给出的文本分类例子中，常用的是一个叫 20-news-group 的语料，是英文语料；

1. 因为想做中文文本分类，我用的语料是自己从网易新闻的各个二级频道爬出来的一些新闻正文内容，
即：娱乐（ 100 篇文章），体育（ xx 篇），财经（ xx 篇），教育（ xx 篇），等等；
前面的频道名称就是分类类别标签，每个分类下面的文章是支持（或者说训练）这个分类的语料；

2. 在 sklearn 中，先 load_files 加载这些分类和各自的语料，作为 training_data （ training_data.target_names 就是所有类别标签的 list ）；
training_data 可以划分出 x_train(新闻正文)和 y_train(类别标签 list ，与 x_train 一一对应)

3. 然后使用 TFIDFVectorizer （配合 jieba 中文分词器），计算语料中分词的 TFIDF 值，将 x_train 转换为 X_train

4. 使用 X_train 和 y_train 去训练分类器；我选择的分类器有：朴素贝叶斯， SGDClassifier 这两种；
其中朴素贝叶斯分类器下，二八划分的语料，得到的测试结果差得令人发指（准确率 30%），就没有作为预测使用（差的原因还没分析出来，不过这是另外一个问题了）

5. 使用 SGDClassifier 在二八划分的语料中，测试预测准确率在 70%左右；现在就又找了一篇新闻正文，想用这个分类器做分类预测；

上述过程在 sklearn 官方文档的文本分类器 demo 代码中基本都能找到，就不贴代码了。

6. 在 pred = clf.predict(X_new) 中，得到的 pred 是一个 ndarray ，里面的值是 training_data.target_names 中每个标签的 index （不是百分百肯定，也有可能这里有误解），
我猜想：这是对待预测数据中分词结果，就是每个词语属于哪个标签的预测，所以才会有原 po 中尝试的解决方案，就是统计每个标签的出现次数，将出现次数最多的作为这次预测的结果；

7. 问题是，按照第 6 步的思路，即使我拿原始训练语料（比如训练用的财经类下面的新闻），再用训练好的模型去预测，得到的类别仍然不对，大多数结果都不是财经类。。。

不知道这样描述够清楚吗？

欢迎继续讨论～～～
有问必答，需要的话可以将完整代码贴出来。

sometimesna1ve

2016-01-28 08:38:32 +08:00

@KIDJourney 感谢，一会到公司试试看

sometimesna1ve

2016-01-28 08:40:31 +08:00

@billgreen1 基本是这样的，不过 preprocessing 中对 label 的一些处理方式我都试过了，貌似都不对（也有可能是我的用法不对？）

sometimesna1ve

2016-01-28 08:42:52 +08:00

@ike 这种方法下，即使我拿训练数据再反过来去做预测，得到的结果大多数都不对。。。叫上面回复第 7 点，举出的网易财经频道新闻数据的例子

sometimesna1ve

2016-01-28 09:38:49 +08:00

@KIDJourney 刚才 debug 看了下， training_data 这个对象没有 label 属性。。。

sometimesna1ve

2016-01-28 10:10:08 +08:00

to all ，

上面第 6 点描述中，对 pred 的理解可能有偏差。
我又 debug 查看了二八划分数据时，使用 20%的测试数据去做预测并计算误差的地方，
可以看到：
**这里的的 pred 是一个跟测试标签 y_test 长度一样的一维数组**
也就是说，对于一个文档样本数据， pred 的输出应该是**唯一的一个标签** ；

那么现在问题就来了，
为什么我 read 单个文档样本做预测时，输出的 pred 不是只有**一个元素的数组**呢。。。

KIDJourney

2016-01-28 10:15:33 +08:00

@rockivy
好吧。。。我也忘了那个属性叫啥了
又查了一下好像是 target_name
predic 返回的是一个和预测数据个数相同的 index ，对应到 target 就好。

sometimesna1ve

2016-01-28 12:42:14 +08:00

@KIDJourney target_names 确实就是原始训练语料的标签列表。

现在的情况是，我 debug 了一早上，现在被模型预测的输出结果搞迷糊了
pred = clf.predict(X_new)

这个 pred 对象：
1. 在使用原始语料分割出来的 20%的测试数据（大约有 1000 条）作为 X_new 输入时，
针对每个语料输出了一个分类类别 id ，是没问题的；

2. 在使用**一条**新的文本数据（无分类类别，待模型预测）作为 X_new 时， pred 并不是一个分类类别 id ，而是一个一维数组，这里我就不会解析了。。。

3. 假设把上面的这一条新的文本数据放到一个正确的类别文件夹下面去（其他类别文件夹全部留空），重新 load_files 这部分数据作为测试数据， pred 的输出又是正确：对于这一个文档输入给出了一个预测结果类别 id

上面的 2 ， 3 点就是我目前最困惑的地方。

sometimesna1ve

2016-01-28 18:54:11 +08:00

哈哈，困扰我两天的问题“算是”解决了！

不敢说是圆满解决，因为这个解决方案稍显丑陋：

之前为了加载数据方便，在加载训练数据集时使用了 load_files 方法，
然后使用 train_test_split 方法划分训练数据和测试数据；

但是在做预测时，单独 open 了待测试的文本文件（与训练数据不同的方式！），然后做 TFIDF 和预测，
此时，得到的 pred 结果是有问题的。

经过尝试和修改，
现在的做法是：
将待测试的文本文件，放入一个 unknown 的分类，然后使用 load_files 加载（与训练数据相同的方式），并使用 train_test_split 方法（设置 test_size 非常大，例如 0.999999 ），使用划分出来的对象做 TFIDF ，然后扔给分类器去预测。
这样，就可以使用如下的代码拿到分类啦！
for index in pred:
label_list.append(training_data.target_names[index])