知乎图片爬虫

2016-10-28 17:02:19 +08:00
 tumbzzc
https://gist.github.com/anonymous/55563f5ed8dd0ff71e62a69562ede2e6
知乎爬虫真麻烦
懒得注释了
4467 次点击
所在节点    Python
36 条回复
corona
2016-10-28 22:10:49 +08:00
为什么看到这么多腿
tumbzzc
2016-10-28 22:15:37 +08:00
@corona 秀腿的问答
liuxingou
2016-10-28 22:16:06 +08:00
@creaer

嗯,刚刚也发现了,替换一下就行了。
liuxingou
2016-10-28 22:34:34 +08:00
@creaer
@tumbzzc


最简单粗暴的方式了:

```Python

for pic in pictures:
print(pic)

newpic=pic[0:-6]+'r.jpeg'

print(newpic)


downloader(newpic,savepath)

```
liuxingou
2016-10-28 22:43:11 +08:00
@creaer
@tumbzzc


不对,刚刚才想到,有的地方是 jpg ,有的地方是 jpeg 。

用 kmp 搜索一下_b 所在位置,把这个位置替换成_r ,这样才是完美思路。
tumbzzc
2016-10-28 22:43:56 +08:00
@liuxingou 那要那么麻烦
[re.sub('_b','_r',pic) for pic in pics]
liuxingou
2016-10-28 22:44:08 +08:00
for pic in pictures:
print(pic)


tmp='_b'

n=kmp_matcher(pic,tmp)

print(n)

newpic=pic[0:n+1]+'r'+pic[n+2:]

print(newpic)


downloader(newpic,savepath)
tumbzzc
2016-10-28 22:48:34 +08:00
@liuxingou 你这一点都不优雅,看我上面的正则替换
guonning
2016-10-28 23:49:59 +08:00
期待 tumblr 的爬虫
xiaozi
2016-10-29 00:36:27 +08:00
老...司...机...
tumbzzc
2016-10-29 00:38:12 +08:00
@xiaozi 我只是技术爱好者(微笑🙂)
lc4t
2016-10-29 03:16:35 +08:00
liuxingou
2016-10-29 09:02:25 +08:00
@tumbzzc


正解了,第一反应是 kmp 而居然不是用正则,还是实际应用太少导致的。

@lc4t
这就去学习一下, 3 还是 2 的?
forestyuan
2016-10-29 13:53:26 +08:00
看胸看腿为什么去知乎呢?不是有很多更好的地方嘛……
mingyun
2016-10-29 19:58:37 +08:00
@lc4t python3 还得改好多,哎,比如 print 和 from io import StringIO ,有个问题 session 不是可以直接用吗?为什么要在函数用 global 引用呢
TabrisNagisa
2016-10-29 22:11:14 +08:00
厉害了我的哥 hhh

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/316244

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX