首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python 学习手册
Python Cookbook
Python 基础教程
Python Sites
PyPI - Python Package Index
http://www.simple-is-better.com/
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
marin1995
V2EX  ›  Python

pyspark 连接 spark 集群部署问题

  •  
  •   marin1995 · 6 天前 · 931 次点击
    请教一下各位大佬,我现在使用 pysaprk 做 sparkstreaming 处理 kafka 的数据。程序单机跑的时候没有问题,连接集群的时候就会报错 no module named "xxxx",连接方式是在程序是设置 setMaster(""spark://host:port)。是不是还要配置其他环境变量呢?麻烦大佬指点一下,有偿~
    3 回复  |  直到 2020-01-15 19:01:59 +08:00
    besttime
        1
    besttime   6 天前   ♥ 1
    pyspark 的 job 提交到 spark 后,会调用 spark 所在环境的 python 解释器,而这个报错的问题就是在于 spark 所在的环境的 python 解释器缺乏你使用的类库。
    xiaoxuxu
        3
    xiaoxuxu   6 天前   ♥ 1
    可以用 pyenv 建个 Python 环境,然后打成压缩包。运行 spark-submit 的时候用--archives 传这个压缩包,并且设置 PYSPARK_DRIVER_PYTHON、PYSPARK_PYTHON 为压缩包内 Python 可执行文件的相对路径,大概是这样:

    PYSPARK_PYTHON=./python-env/bin/python PYSPARK_DRIVER_PYTHON=./python-env/bin/python spark-submit --master yarn --deploy-mode cluster --archives python-env.zip#python-env
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2294 人在线   最高记录 5168   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 23ms · UTC 13:58 · PVG 21:58 · LAX 05:58 · JFK 08:58
    ♥ Do have faith in what you're doing.