想做个爬图片的小工具,列了一些需求,请教架构如何决定。

2017-01-15 21:03:36 +08:00
 ne6rd

在公司一直写 webapi ,要么就是业务相关的 CURD 操作。想抽空做个小工具,拓展一下技能面,也可以实用。 市面上一些爬虫软件用过一些,感觉太分散,没有集中管理功能。 语言 JAVA , NODEJS 都写过服务端,前端套 angular 和 bootstrap 的水平。 看到爬虫用 PYTHON 实现的很多,是不是用来写这个最合适,这几天刚看了语法。 自己列了个需求如图。如果用 python 的话,有哪些成熟的第三方库可以直接用的,谢谢。

3291 次点击
所在节点    Python
14 条回复
xuzywozz
2017-01-15 21:05:20 +08:00
requests scrapy :)
upczww
2017-01-15 21:12:24 +08:00
补充下 pyspider 也不错。
bdbai
2017-01-15 21:32:13 +08:00
如果还要站点管理什么的,感觉要搞复杂了。上 Django ,再来个消息队列吧。
gouchaoer
2017-01-15 21:33:50 +08:00
Pixiv 我做了, http://myqsmy.com
爬虫是非常琐碎的内容处理工作,做成 web 界面管理挺困难的, import.io 那样太麻烦了

那一堆爬虫框架大多数时候都没用
gouchaoer
2017-01-15 21:36:27 +08:00
django 折腾过,我表示做简单的 web 后台 php 随便找一个框架都很方便( laravel 除外)
ne6rd
2017-01-15 21:37:31 +08:00
@bdbai Django 不是 web 框架吗,做成 BS 架构的?我其实想做成客户端,打包成 exe 运行的。
ne6rd
2017-01-15 21:45:47 +08:00
@gouchaoer pixiv 我以前用过 PixivUtil2.exe ,感觉功能很强大。就是在存储路径上有一些不满意。
主要想实现集中管理,包括更新日期之类的。
站点管理你们第一反应都是 web 后台?我想做客户端的呀 orz
bdbai
2017-01-15 21:58:38 +08:00
我觉得有了 web API ,跨平台就好实现了,没有 B/S 和 C/S 之分。想做网页端就来套前端框架,想做客户端就写客户端代码, Java 、 C# 都行,毕竟 GUI 不是 Python 强项。而用 Django 做一套 web 服务很方便。
araraloren
2017-01-16 09:26:54 +08:00
~~你这需求列的
就不像小工具。。。。
简单来讲 还是先搞个 demo 自己试试吧,然后根据自己的需求设计。。
比如我这个
https://github.com/araraloren/Getopt-Kinoko/blob/master/sample/fetch-picture.p6
也算是一个爬虫了,足够简单实用(图片下载工具只是简单的借用 wget ,最近我才加入了 LWP 模块的支持,没来得及更新),我拿来下百毒贴吧的图片用
考虑到其他的网站,可能最现实的就是还需要登录,甚至会有验证码,或者是 IP 的访问限制,还是挺麻烦的,前期的时候尽量要考虑全面。。
dantegg
2017-01-16 11:29:34 +08:00
scrapy
beidouxun
2017-01-16 12:34:24 +08:00
我用的 C#爬虫框架,自己写的 web 管理页面。不是 GUI 和没有日志生成,其他都实现了
doumeki
2017-01-16 16:51:17 +08:00
初学者有个疑问,我看 python 爬虫都推荐那个 scrapy.
求问 selenium 这个自动化工具也很方便啊,为什么没人推荐使用?
argsno
2017-01-16 22:25:39 +08:00
@doumeki selenium 主要用在需要模拟浏览器,需要 Javascript 的执行环境下
scrapy 是个并行的爬虫框架,简单而且速度快
figofuture
2017-01-17 10:08:09 +08:00
可以看看这篇帖子 http://www.jianshu.com/p/53948b9c5f9b

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/334762

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX