Hadoop Python 中读入文件的问题

假设我有一个文件A包含一些词（大概有1000多个词），另外5个文件S包含的都是句子（大概有3-4亿个句子）。
现在我想统计出A文件中每个单词，在S文件中句子所包含数量，就是S文件中有几个句子包含指定单词。
那么我在编写mapper.py中应该怎样输入这两类文件呢？
下面这么写可以吗？

#! /usr/bin/env python
#encoding=utf-8

import sys

f = file("words.txt")
for word in f.readlines(): # 每行包含一个单词
for line in sys.stdin: # 从HDFS中读入包含句子的文件，每一行包含一个句子
if word in line.strip():
print '%s\t%s' % (word,1)

lcj2class

2014-07-29 11:52:36 +08:00

很明显，对于文件A你需要通过-file选项制定，然后另外5个文件放到一个文件夹下，假设在input下

$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \
-input input \
-output out \
-mapper myPythonScript.py \
-reducer /bin/wc \
-file 文件A

myPythonScript可以这么实现：

keys = [w.rstrip() for w in open("文件A").readlines()]

for line in sys.stdin:
words = line.split()
for w in words:
if w in keys
print("\t".join([w,1]))

lcj2class

2014-07-29 22:35:06 +08:00

汉字一样呀，你只要分好词就行

在py文件开头加上

# -*- coding: utf8 -*-

就ok了

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/125005

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.