konachan 图站爬虫一枚

2015-06-20 15:52:56 +08:00
 wudaown

应要求顺便把K站爬虫也撸出来了...

https://github.com/wudaown/konachanDL

yande.re 爬虫参考另外一个帖子

https://www.v2ex.com/t/199965

PS: 大家多拍拍 想进步 不知道怎么搞

5032 次点击
所在节点    问与答
20 条回复
ericls
2015-06-20 16:41:56 +08:00
既然都用了 Python3 了

如果真的是「爬虫」,也应该用aiohttp之类的异步吧
n37r06u3
2015-06-20 18:05:43 +08:00
都是漫黄站啊
binux
2015-06-20 18:27:27 +08:00
人家明明有 API,你非得解析页面
http://konachan.com/post.json
wudaown
2015-06-20 18:55:42 +08:00
@binux 新手 完全不会.. 能简单说一下怎么使用api么.. 想针对API在修改一下
binux
2015-06-20 18:57:59 +08:00
@wudaown JSON
wudaown
2015-06-20 20:16:50 +08:00
@binux 是通过python的json库么?
wudaown
2015-06-20 21:25:05 +08:00
@binux 发现每个页面都有json... 那还要解析每一页的json效率会差很多吗?
xupefei
2015-06-20 21:27:19 +08:00
@wudaown 给人家服务器带来的压力高了不少。
wudaown
2015-06-20 21:41:59 +08:00
@xupefei 这样啊~ 谢谢.. 那我的想法对吗?打开对应页面的json然后解析?
binux
2015-06-20 22:15:45 +08:00
@wudaown 你有什么是需要打开对应页面才能拿到的吗?
wudaown
2015-06-20 22:21:43 +08:00
@binux http://konachan.com/post.json?page=2&tags=yuuki_asuna 是第二页的json
http://konachan.com/post.json?page=1&tags=yuuki_asuna 是第一页的json ...
分析完一页不是要分析第二页么..
binux
2015-06-20 22:24:40 +08:00
@wudaown 如果你要第二页上的东西,这不是必须的吗?
wudaown
2015-06-20 22:32:55 +08:00
@binux 那貌似和解析html页面差不多啊....
Lucius
2015-06-20 22:43:01 +08:00
@wudaown 效率差很多吧。你要爬的只是内容,解析HTML是把整个页面给load了
wudaown
2015-06-20 23:12:39 +08:00
@Lucius 可是打开json不也是打开整个么?
Lucius
2015-06-20 23:56:26 +08:00
@wudaown ... json 已经直接给了你爬完后的数据。
evlos
2015-06-21 00:00:11 +08:00
@wudaown API 格式一般是永久固定的,HTML 只要页面一改版就跪了。
wudaown
2015-06-21 00:14:14 +08:00
@Lucius 就是不用分析 一眼就看出来需要什么...
KyoHiroki
2015-06-21 01:26:46 +08:00
1.html页面如果有用js生成的动态内容,你是爬不到的,json没有这个问题;
2.渲染html页面对服务器的负担比json大;
3.html页面可能会经常修改,不易维护。
wudaown
2015-06-21 01:31:23 +08:00
@KyoHiroki 知道的更多了~~ 继续学习

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/200042

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX