V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 换工作是一件经过深思熟虑的严肃事情
• 频繁换工作是 loser 做的事情
• 公司应该提供给员工尽可能好的条件
• 这里不欢迎苦大仇深的公司
• 原则上这里不欢迎猎头发帖,除非是懂技术的猎头
• 如果你自己从来没有从期权上赚过钱,就不要在招聘时强调期权
• 招聘时请尽量给出薪酬范围
• 求职时请附上自己的薪酬要求
• 说话前经过足够的思考是好习惯
• 上传一个有意义的头像会更体现你们公司的品牌和诚意
• 请不要在 1 天的时间内在酷工作节点发布超过 3 个主题
• 在不同节点下发布内容相同的主题这种行为不科学
hexor
V2EX  ›  酷工作

[外包] [知乎爬虫] 爬若干个用户的知乎回答和文章数据

  •  
  •   hexor · 2020-04-04 13:26:38 +08:00 · 2884 次点击
    这是一个创建于 655 天前的主题,其中的信息可能已经有所发展或是发生改变。

    需求

    爬取若干个指定知乎用户的所有的回答(某些用户的回答可能超过 2000 条)和所有文章内容并重新加工处理后保存。

    回答

    爬取这个回答的“问题”和该用户对于这个问题所发布的“答案”。

    文章

    爬取这个文章的"标题"和"正文"内容。

    格式

    “问题”和"标题"是普通文本即可。

    “答案”和"正文"需要是 html 格式,即这一段内容要可以直接插入到网页代码中并能正常显示。

    其他内容

    图片

    答案”和"正文"中的图片需要被下载,然后以新的地址重新插入到正文中,不需要去水印。

    对于“答案”和"正文"中的图片链接,需要下载该图片并重新命名然后保存到文件夹中,然后将原“答案”和"正文"中的图片链接替换为xxx.com/xxx/xxxxxx.jpg/png, 确保图片能够在正文中被正确显示。

    超链接

    直接保留即可

    备注

    • 不限制爬虫的技术实现。
    • 只需要最后的爬到的结果,不需要爬虫的代码。
    • 最后的结果需要保存成 csv 或者 excel 或者 PHP 数组的格式交付。

    价格

    500 人民币

    时间

    1 周以内

    联系 wx

    hexor_

    21 条回复    2020-04-06 16:08:12 +08:00
    hhhfffhhh
        1
    hhhfffhhh  
       2020-04-04 14:13:40 +08:00 via iPhone   ❤️ 1
    少打一个 0
    aWangami
        2
    aWangami  
       2020-04-04 14:28:00 +08:00 via Android
    7 天除 500 相当于每天 80 都不到,这价格相当公道呀
    jugelizi
        3
    jugelizi  
       2020-04-04 14:29:41 +08:00
    来羞辱的?
    楼下怎么说
    murmur
        4
    murmur  
       2020-04-04 14:31:42 +08:00
    500 快钱拿到知乎的核心数据?若干后面没括号呢,没写某若干可能超过几万人
    limuyan44
        5
    limuyan44  
       2020-04-04 15:13:36 +08:00
    鬼鬼,这工作量也太小了,楼下上。
    tojonozomi
        6
    tojonozomi  
       2020-04-04 15:34:17 +08:00
    @hhhfffhhh 多一个 0 都不一定有人干吧
    wsz66
        7
    wsz66  
       2020-04-04 15:35:01 +08:00 via Android
    赚大了,让给楼下了
    0xABCD
        8
    0xABCD  
       2020-04-04 15:39:19 +08:00 via Android
    500,高薪啊
    fengfuliu
        9
    fengfuliu  
       2020-04-04 15:40:34 +08:00
    知乎是拒绝蜘蛛协议的 爬的话很有可能违法
    nieyujiang
        10
    nieyujiang  
       2020-04-04 15:46:59 +08:00 via iPhone
    空手套爬虫?
    fhsan
        11
    fhsan  
       2020-04-04 15:52:27 +08:00
    这种网上一大把,自己找找改改就有

    比如什么抖音直播打赏时时统计,就算有,小心坐牢
    superrichman
        12
    superrichman  
       2020-04-04 16:06:59 +08:00 via iPhone   ❤️ 1
    这中间商赚了多少差价?
    hfutzj
        13
    hfutzj  
       2020-04-04 16:20:39 +08:00
    价格不清楚,不过你这个需求感觉不像正经事
    airqj
        14
    airqj  
       2020-04-04 16:23:38 +08:00 via Android
    哈哈 四年前的问答数据楼主要吗
    DeWhite
        15
    DeWhite  
       2020-04-04 20:55:11 +08:00
    若干是多少呀,就算写完了能爬的量也有可能超过若干。
    还得优化,500 快太多就不好爬了得改。
    hexor
        16
    hexor  
    OP
       2020-04-04 22:17:27 +08:00
    工作已经完成,顺便回答以上问题。

    我爬的号都是公司自己的号( 10 个左右),现在想把这些号回答的内容保存下来放到我们自己公司的网站上,只是有几千个回答,知乎又不支持数据导出所以我只能这样。

    我开这个价也不是想请人来写代码,因为我知道有很多人在爬知乎的数据,所以我只是找人顺便用他已经做好的工具帮我爬一下而已。
    所以 500 这个价格,就是 2 个小时工作量左右,工作量主要是在跟我沟通而不是实现技术细节。

    这个外包已经做完了,工作时间也就 1 个小时左右。
    jayli517
        17
    jayli517  
       2020-04-05 04:47:41 +08:00
    嗯,只要是有现成知乎爬虫的,提供一下数据就可以了。我这有现成爬虫团队的,感觉以后也可以接点小活给兄弟们增加点外快
    hsluoyz
        18
    hsluoyz  
       2020-04-05 13:06:55 +08:00
    知乎没有反爬措施么
    changwei
        19
    changwei  
       2020-04-05 15:25:43 +08:00
    这网站里面就有知乎的员工,你这价格不怕人家员工直接加 vx 来找你聊天,然后发聊天记录给知乎公司的法务看?
    TimeRain
        20
    TimeRain  
       2020-04-05 19:27:24 +08:00
    吃牢饭警告
    efaun
        21
    efaun  
       2020-04-06 16:08:12 +08:00
    没有法律直接规定爬虫违法吧?我看到的案例,都是拿爬的数据盈利或者对主站造成了干扰才判刑的,现在有新规定了吗?
    @changwei #19
    @TimeRain #20
    关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   1168 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 22:44 · PVG 06:44 · LAX 14:44 · JFK 17:44
    ♥ Do have faith in what you're doing.