[外包] [知乎爬虫] 爬若干个用户的知乎回答和文章数据

2020-04-04 13:26:38 +08:00
 hexor

需求

爬取若干个指定知乎用户的所有的回答(某些用户的回答可能超过 2000 条)和所有文章内容并重新加工处理后保存。

回答

爬取这个回答的“问题”和该用户对于这个问题所发布的“答案”。

文章

爬取这个文章的"标题"和"正文"内容。

格式

“问题”和"标题"是普通文本即可。

“答案”和"正文"需要是 html 格式,即这一段内容要可以直接插入到网页代码中并能正常显示。

其他内容

图片

答案”和"正文"中的图片需要被下载,然后以新的地址重新插入到正文中,不需要去水印。

对于“答案”和"正文"中的图片链接,需要下载该图片并重新命名然后保存到文件夹中,然后将原“答案”和"正文"中的图片链接替换为xxx.com/xxx/xxxxxx.jpg/png, 确保图片能够在正文中被正确显示。

超链接

直接保留即可

备注

价格

500 人民币

时间

1 周以内

联系 wx

hexor_

3659 次点击
所在节点    酷工作
21 条回复
efaun
2020-04-06 16:08:12 +08:00
没有法律直接规定爬虫违法吧?我看到的案例,都是拿爬的数据盈利或者对主站造成了干扰才判刑的,现在有新规定了吗?
@changwei #19
@TimeRain #20

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/659320

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX