V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
seawind
V2EX  ›  酷工作

[杭州] [D 轮] [内推] Python 爬虫工程师

  •  
  •   seawind · 2019-10-14 10:54:32 +08:00 · 1517 次点击
    这是一个创建于 1655 天前的主题,其中的信息可能已经有所发展或是发生改变。

    关于我们

    丁香园是中国领先的医疗领域连接者以及数字化领域专业服务供应商。 为中国医生提供在线交流平台、优质的医学信息数据库和高效便捷工具是丁香园创立至今不变的理念。深耕 16 年,平台汇聚了国内医学、药学和生命科学的专业工作者超过 550 万,其中专业医生会员超过 200 万名,占中国医生总人数近七成。

    职位描述

    1.参与分布式爬虫和数据采集系统的架构设计和开发;
    2.参与智能抽取框架和智能数据处理框架的设计和开发;
    3.负责网络数据抓取规划和数据链路规划、高效且稳定爬取指定网站的数据;
    4.设计爬虫策略和防屏蔽规则,优化网页抓取的效率和质量;
    5.利用机器学习策略优化现有数据清洗,数据提取,结构化,入库等过程;
    6.深度思考并参与业务等数据瓶颈,并有效解决;

    任职条件

    1.本科以上学历,计算机或统计相关专业,两年以上相关工作经验,有爬虫和反爬虫,国内外网站爬取经验。
    2.熟悉 linux 平台开发,精通 Python,熟悉常用的爬虫框架和工具,熟练 git 使用;有 web 开发经验的优先。
    3.熟悉 MongoDB、Redis、Mysql,掌握 celery,了解 HBase、KAFKA 等;熟练掌握 celery 的优先。
    4.熟悉 HTTP 协议,熟悉正则表达式、XPath、CSS 选择器等,了解常用验证码识别技术,有智能抽取经验的优先。
    5.能独立解决实际开发过程碰到的各类疑难杂症,有机器学习处理非结构化到结构话项目经验的优先。
    6.熟悉分布式开发,有大规模分布式开发和部署经验优先。
    7.有大数据数据清洗和储存经验的优先。
    8.有设计舆情监控系统经验的优先,有 nlp 经验的优先。

    联系方式

    内推简历发送至邮箱: [email protected] 我的微信:weceshi123

    另有 java 坑可帮忙推荐

    1 条回复    2019-10-14 11:18:39 +08:00
    biu7
        1
    biu7  
       2019-10-14 11:18:39 +08:00
    听说贵司公积金是按 2000 交的?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   3263 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 13:50 · PVG 21:50 · LAX 06:50 · JFK 09:50
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.