V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
CycloneJJoker
V2EX  ›  外包

[项目制] 团队招一名 Python 爬虫(偏架构优化与工程化,无需复杂逆向)

  •  
  •   CycloneJJoker · 20h 58m ago · 323 views

    [项目背景]

    我们目前有一套成熟的 Python 爬虫基础源码,并提供稳定可靠的代理池。现有系统已支持历史回溯爬取和增量爬取,状态管理(失败重试、死信队列、断点续爬等)目前全部依赖 PostgreSQL 。 随着业务发展,我们需要一位靠谱的工程师来接手现有代码,进行架构的稳定性升级、日常维护以及数据入库工作。

    [工作职责]

    • 架构升级与优化:基于现有 Python 源码进行重构和稳定性升级,优化当前强依赖 PgSQL 的状态管理(可引入 Redis 等中间件,或优化现有表结构)。
    • 数据入库与清洗:负责将抓取到的数据进行结构化处理,并稳定、高效地写入目标数据库。
    • 站点适配与维护:根据我们提供的目标网站列表,编写/修改解析逻辑,确保数据完整抓取。
    • 项目交付:以项目制结算,完成指定网站的抓取任务,代码合并后在生产环境稳定运行通过验收。

    [岗位要求]

    • 熟练掌握 Python ,熟悉常见的爬虫框架和库(如 Scrapy, requests, aiohttp 等),有丰富的并发抓取经验。
    • 工程能力强:具备良好的代码规范,重视系统的容错性、异常处理和日志监控。
    • 熟悉 PostgreSQL ,有扎实的 SQL 功底,了解数据库层面的状态管理设计。熟悉 Redis 者优先。
    • 责任心强,沟通顺畅,能按时交付。
    • 了解常见的反爬策略及 JS 逆向破解技能。(加分项)

    [合作与结算方式]

    • 合作模式:兼职/项目制外包,远程工作。
    • 结算方式:按项目/站点阶段性结算。
    • 验收标准:代码交付并 Review 通过,目标网站数据按要求入库,且在服务器上能够无人值守稳定运行 3 天。
    • 我们会提供 codex 等编程工具辅助开发,鼓励使用 ai 工具提效

    有意向的佬可以发送简历到邮箱 [email protected] ,主题为:V2EX-Python 爬虫,同时写上个人联系方式( qq/wx 均可),我们会主动添加联系。

    No Comments Yet
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   6054 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 06:17 · PVG 14:17 · LAX 23:17 · JFK 02:17
    ♥ Do have faith in what you're doing.