需求
爬取若干个指定知乎用户的所有的回答(某些用户的回答可能超过 2000 条)和所有文章内容并重新加工处理后保存。
回答
爬取这个回答的“问题”和该用户对于这个问题所发布的“答案”。
文章
爬取这个文章的"标题"和"正文"内容。
格式
“问题”和"标题"是普通文本即可。
“答案”和"正文"需要是 html 格式,即这一段内容要可以直接插入到网页代码中并能正常显示。
其他内容
图片
答案”和"正文"中的图片需要被下载,然后以新的地址重新插入到正文中,不需要去水印。
对于“答案”和"正文"中的图片链接,需要下载该图片并重新命名然后保存到文件夹中,然后将原“答案”和"正文"中的图片链接替换为xxx.com/xxx/xxxxxx.jpg/png, 确保图片能够在正文中被正确显示。
超链接
直接保留即可
备注
- 不限制爬虫的技术实现。
- 只需要最后的爬到的结果,不需要爬虫的代码。
- 最后的结果需要保存成 csv 或者 excel 或者 PHP 数组的格式交付。
价格
500 人民币
时间
1 周以内
联系 wx
hexor_