爬取若干个指定知乎用户的所有的回答(某些用户的回答可能超过 2000 条)和所有文章内容并重新加工处理后保存。
爬取这个回答的“问题”和该用户对于这个问题所发布的“答案”。
爬取这个文章的"标题"和"正文"内容。
“问题”和"标题"是普通文本即可。
“答案”和"正文"需要是 html 格式,即这一段内容要可以直接插入到网页代码中并能正常显示。
答案”和"正文"中的图片需要被下载,然后以新的地址重新插入到正文中,不需要去水印。
对于“答案”和"正文"中的图片链接,需要下载该图片并重新命名然后保存到文件夹中,然后将原“答案”和"正文"中的图片链接替换为xxx.com/xxx/xxxxxx.jpg/png
, 确保图片能够在正文中被正确显示。
直接保留即可
500 人民币
1 周以内
hexor_
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.