一个知乎爬虫,可保存关注列表对象的信息到本地,欢迎前来玩耍~

2014-02-26 01:16:31 +08:00
 paulw54jrn
之前知乎有大神退出删除答案,萌发了用爬虫把自己关注的对象的答案爬下来的想法.顺便学习下Python.

使用方法: python user_cralwer USERNAME PASSWORD

脚本会在当前目录下面创建一个叫Answer的文件夹,里面每个用户独立一个文件夹,然后一个xml文件存下该用户的所有答案,同时为每个回答创建一个文件夹,里面放该用户贴的图(如果有的话)

链接:
https://github.com/paulw54jrn/ZhiHu-Crawler

写来练手,如果有任何bug,请轻喷,我会马上修改~







另外夹带点私货,14年毕业,v2ex的各位大神,如果有机会,求实习...
3818 次点击
所在节点    分享创造
5 条回复
imom0
2014-02-26 01:21:07 +08:00
命名表要爪哇风格,tabular也看着挺不习惯的。
paulw54jrn
2014-02-26 01:30:42 +08:00
@imom0 对编程规范不是很熟悉,可否请再点解一下?
MichaelYin
2014-02-26 08:43:40 +08:00
随便看了一下,提几点把

import 建议看看python core programming 里的建议

注释风格不统一

每行代码不要太长,建议用sublime 画上rule强制自己代码不要超过多少宽度

内容的提取个人认为其实xpath应该够用了把
tarsier
2014-02-26 08:45:21 +08:00
知乎登录有时候会有验证码,怎么解决的?
paulw54jrn
2014-02-26 10:57:59 +08:00
@MichaelYin
谢谢你的建议.
至于代码长度的问题,把比如说有个很长的正则表达式或者创建线程的时候带了一堆参数,拆分成多行有时候感觉代码读起来也很零散,这个有什么办法呢?

@tarsier
之前使用知乎从来没试过需要验证码,所以今天才知道有这回事...
http://www.zhihu.com/question/19660087
http://www.zhihu.com/question/20420079
上面说似乎是频繁的反人类操作才会导致要输入验证码,但是我在测试脚本的时候也有大量的登录\fetch用户的操作,也没有触发验证码...

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/101884

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX