一个知乎爬虫,可保存关注列表对象的信息到本地,欢迎前来玩耍~

之前知乎有大神退出删除答案,萌发了用爬虫把自己关注的对象的答案爬下来的想法.顺便学习下Python.

使用方法: python user_cralwer USERNAME PASSWORD

脚本会在当前目录下面创建一个叫Answer的文件夹,里面每个用户独立一个文件夹,然后一个xml文件存下该用户的所有答案,同时为每个回答创建一个文件夹,里面放该用户贴的图(如果有的话)

链接:
https://github.com/paulw54jrn/ZhiHu-Crawler

写来练手,如果有任何bug,请轻喷,我会马上修改~

另外夹带点私货,14年毕业,v2ex的各位大神,如果有机会,求实习...

MichaelYin

2014-02-26 08:43:40 +08:00

随便看了一下，提几点把

import 建议看看python core programming 里的建议

注释风格不统一

每行代码不要太长，建议用sublime 画上rule强制自己代码不要超过多少宽度

内容的提取个人认为其实xpath应该够用了把

paulw54jrn

2014-02-26 10:57:59 +08:00

@MichaelYin
谢谢你的建议.
至于代码长度的问题,把比如说有个很长的正则表达式或者创建线程的时候带了一堆参数,拆分成多行有时候感觉代码读起来也很零散,这个有什么办法呢?

@tarsier
之前使用知乎从来没试过需要验证码,所以今天才知道有这回事...
http://www.zhihu.com/question/19660087
http://www.zhihu.com/question/20420079
上面说似乎是频繁的反人类操作才会导致要输入验证码,但是我在测试脚本的时候也有大量的登录\fetch用户的操作,也没有触发验证码...

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/101884

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.