[外包] [知乎爬虫] 爬若干个用户的知乎回答和文章数据

2020-04-04 13:26:38 +08:00

hexor

需求

爬取若干个指定知乎用户的所有的回答（某些用户的回答可能超过 2000 条）和所有文章内容并重新加工处理后保存。

回答

爬取这个回答的“问题”和该用户对于这个问题所发布的“答案”。

文章

爬取这个文章的"标题"和"正文"内容。

格式

“问题”和"标题"是普通文本即可。

“答案”和"正文"需要是 html 格式，即这一段内容要可以直接插入到网页代码中并能正常显示。

其他内容

图片

答案”和"正文"中的图片需要被下载，然后以新的地址重新插入到正文中，不需要去水印。

对于“答案”和"正文"中的图片链接，需要下载该图片并重新命名然后保存到文件夹中，然后将原“答案”和"正文"中的图片链接替换为xxx.com/xxx/xxxxxx.jpg/png, 确保图片能够在正文中被正确显示。

超链接

直接保留即可

备注

不限制爬虫的技术实现。
只需要最后的爬到的结果，不需要爬虫的代码。
最后的结果需要保存成 csv 或者 excel 或者 PHP 数组的格式交付。

价格

500 人民币

时间

1 周以内

联系 wx

hexor_

3822 次点击

所在节点

21 条回复

hhhfffhhh

2020-04-04 14:13:40 +08:00

少打一个 0

aWangami

2020-04-04 14:28:00 +08:00

7 天除 500 相当于每天 80 都不到，这价格相当公道呀

jugelizi

2020-04-04 14:29:41 +08:00

来羞辱的？
楼下怎么说

murmur

2020-04-04 14:31:42 +08:00

500 快钱拿到知乎的核心数据？若干后面没括号呢，没写某若干可能超过几万人

limuyan44

2020-04-04 15:13:36 +08:00

鬼鬼，这工作量也太小了，楼下上。

tojonozomi

2020-04-04 15:34:17 +08:00

@hhhfffhhh 多一个 0 都不一定有人干吧

wsz66

2020-04-04 15:35:01 +08:00

赚大了，让给楼下了

0xABCD

2020-04-04 15:39:19 +08:00

500，高薪啊

fengfuliu

2020-04-04 15:40:34 +08:00

知乎是拒绝蜘蛛协议的爬的话很有可能违法

nieyujiang

2020-04-04 15:46:59 +08:00

空手套爬虫？

fhsan

2020-04-04 15:52:27 +08:00

这种网上一大把，自己找找改改就有

比如什么抖音直播打赏时时统计，就算有，小心坐牢

superrichman

2020-04-04 16:06:59 +08:00

这中间商赚了多少差价？

hfutzj

2020-04-04 16:20:39 +08:00

价格不清楚，不过你这个需求感觉不像正经事

airqj

2020-04-04 16:23:38 +08:00

哈哈四年前的问答数据楼主要吗

DeWhite

2020-04-04 20:55:11 +08:00

若干是多少呀，就算写完了能爬的量也有可能超过若干。
还得优化，500 快太多就不好爬了得改。

hexor

2020-04-04 22:17:27 +08:00

工作已经完成，顺便回答以上问题。

我爬的号都是公司自己的号（ 10 个左右），现在想把这些号回答的内容保存下来放到我们自己公司的网站上，只是有几千个回答，知乎又不支持数据导出所以我只能这样。

我开这个价也不是想请人来写代码，因为我知道有很多人在爬知乎的数据，所以我只是找人顺便用他已经做好的工具帮我爬一下而已。
所以 500 这个价格，就是 2 个小时工作量左右，工作量主要是在跟我沟通而不是实现技术细节。

这个外包已经做完了，工作时间也就 1 个小时左右。

jayli517

2020-04-05 04:47:41 +08:00

嗯，只要是有现成知乎爬虫的，提供一下数据就可以了。我这有现成爬虫团队的，感觉以后也可以接点小活给兄弟们增加点外快

hsluoyz

2020-04-05 13:06:55 +08:00

知乎没有反爬措施么

changwei

2020-04-05 15:25:43 +08:00

这网站里面就有知乎的员工，你这价格不怕人家员工直接加 vx 来找你聊天，然后发聊天记录给知乎公司的法务看？

TimeRain

2020-04-05 19:27:24 +08:00

吃牢饭警告

第 1 页／共 2 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/659320

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX