[外包] [知乎爬虫] 爬若干个用户的知乎回答和文章数据

• 外包信息请发到 /go/outsourcing 节点。

• 不要把相同的信息发到不同的节点

This topic created in 2304 days ago, the information mentioned may be changed or developed.

需求

爬取若干个指定知乎用户的所有的回答（某些用户的回答可能超过 2000 条）和所有文章内容并重新加工处理后保存。

回答

爬取这个回答的“问题”和该用户对于这个问题所发布的“答案”。

文章

爬取这个文章的"标题"和"正文"内容。

格式

“问题”和"标题"是普通文本即可。

“答案”和"正文"需要是 html 格式，即这一段内容要可以直接插入到网页代码中并能正常显示。

其他内容

图片

答案”和"正文"中的图片需要被下载，然后以新的地址重新插入到正文中，不需要去水印。

对于“答案”和"正文"中的图片链接，需要下载该图片并重新命名然后保存到文件夹中，然后将原“答案”和"正文"中的图片链接替换为xxx.com/xxx/xxxxxx.jpg/png, 确保图片能够在正文中被正确显示。

超链接

直接保留即可

备注

不限制爬虫的技术实现。
只需要最后的爬到的结果，不需要爬虫的代码。
最后的结果需要保存成 csv 或者 excel 或者 PHP 数组的格式交付。

价格

500 人民币

时间

1 周以内

联系 wx

hexor_

正文

知乎

图片

答案

21 replies • 2020-04-06 16:08:12 +08:00

hhhfffhhh

Apr 4, 2020 via iPhone

少打一个 0

aWangami

Apr 4, 2020 via Android

7 天除 500 相当于每天 80 都不到，这价格相当公道呀

jugelizi

Apr 4, 2020

来羞辱的？
楼下怎么说

murmur

Apr 4, 2020

500 快钱拿到知乎的核心数据？若干后面没括号呢，没写某若干可能超过几万人

limuyan44

Apr 4, 2020

鬼鬼，这工作量也太小了，楼下上。

tojonozomi

Apr 4, 2020

@hhhfffhhh 多一个 0 都不一定有人干吧

wsz66

Apr 4, 2020 via Android

赚大了，让给楼下了

0xABCD

Apr 4, 2020 via Android

500，高薪啊

fengfuliu

Apr 4, 2020

知乎是拒绝蜘蛛协议的爬的话很有可能违法

ZeoKarl

Apr 4, 2020 via iPhone

空手套爬虫？

fhsan

Apr 4, 2020

这种网上一大把，自己找找改改就有

比如什么抖音直播打赏时时统计，就算有，小心坐牢

superrichman

Apr 4, 2020 via iPhone

这中间商赚了多少差价？

DJI360

Apr 4, 2020

价格不清楚，不过你这个需求感觉不像正经事

airqj

Apr 4, 2020 via Android

哈哈四年前的问答数据楼主要吗

DeWhite

Apr 4, 2020

若干是多少呀，就算写完了能爬的量也有可能超过若干。
还得优化，500 快太多就不好爬了得改。

OrbitTerminus

Apr 4, 2020

工作已经完成，顺便回答以上问题。

我爬的号都是公司自己的号（ 10 个左右），现在想把这些号回答的内容保存下来放到我们自己公司的网站上，只是有几千个回答，知乎又不支持数据导出所以我只能这样。

我开这个价也不是想请人来写代码，因为我知道有很多人在爬知乎的数据，所以我只是找人顺便用他已经做好的工具帮我爬一下而已。
所以 500 这个价格，就是 2 个小时工作量左右，工作量主要是在跟我沟通而不是实现技术细节。

这个外包已经做完了，工作时间也就 1 个小时左右。