konachan 图站爬虫一枚

2015 年 6 月 20 日

wudaown

应要求顺便把K站爬虫也撸出来了...

https://github.com/wudaown/konachanDL

yande.re 爬虫参考另外一个帖子

https://www.v2ex.com/t/199965

PS: 大家多拍拍想进步不知道怎么搞

5803 次点击

所在节点

问与答

20 条回复

ericls

2015 年 6 月 20 日

既然都用了 Python3 了

如果真的是「爬虫」，也应该用aiohttp之类的异步吧

n37r06u3

2015 年 6 月 20 日

都是漫黄站啊

binux

2015 年 6 月 20 日

人家明明有 API，你非得解析页面
http://konachan.com/post.json

wudaown

2015 年 6 月 20 日

@binux 新手完全不会.. 能简单说一下怎么使用api么.. 想针对API在修改一下

binux

2015 年 6 月 20 日

@wudaown JSON

wudaown

2015 年 6 月 20 日

@binux 是通过python的json库么？

wudaown

2015 年 6 月 20 日

@binux 发现每个页面都有json... 那还要解析每一页的json效率会差很多吗？

xupefei

2015 年 6 月 20 日

@wudaown 给人家服务器带来的压力高了不少。

wudaown

2015 年 6 月 20 日

@xupefei 这样啊~ 谢谢.. 那我的想法对吗？打开对应页面的json然后解析？

binux

2015 年 6 月 20 日

@wudaown 你有什么是需要打开对应页面才能拿到的吗？

wudaown

2015 年 6 月 20 日

@binux http://konachan.com/post.json?page=2&tags=yuuki_asuna 是第二页的json
http://konachan.com/post.json?page=1&tags=yuuki_asuna 是第一页的json ...
分析完一页不是要分析第二页么..

binux

2015 年 6 月 20 日

@wudaown 如果你要第二页上的东西，这不是必须的吗？

wudaown

2015 年 6 月 20 日

@binux 那貌似和解析html页面差不多啊....

Lucius

2015 年 6 月 20 日

@wudaown 效率差很多吧。你要爬的只是内容，解析HTML是把整个页面给load了

wudaown

2015 年 6 月 20 日

@Lucius 可是打开json不也是打开整个么？

Lucius

2015 年 6 月 20 日

@wudaown ... json 已经直接给了你爬完后的数据。

evlos

2015 年 6 月 21 日

@wudaown API 格式一般是永久固定的，HTML 只要页面一改版就跪了。

wudaown

2015 年 6 月 21 日

@Lucius 就是不用分析一眼就看出来需要什么...

KyoHiroki

2015 年 6 月 21 日

1.html页面如果有用js生成的动态内容，你是爬不到的，json没有这个问题；
2.渲染html页面对服务器的负担比json大；
3.html页面可能会经常修改，不易维护。

wudaown

2015 年 6 月 21 日

@KyoHiroki 知道的更多了~~ 继续学习

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/200042

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.