爬虫上传图片的问题

2016-02-16 13:33:33 +08:00
 ufo22940268

在做一个爬虫程序,图片的服务器用的是qiniu

要求:

现在碰到一个问题,就是爬一个链接的时候,大量的时间都耗费在了上传图片上。怎么样提高爬取单个链接的效率?

我先提一种解决方案:
先爬站的内容,然后图片用原始的图片链接。然后用工作线程循环查找还有哪些图片没有上传的,依次上传。但是感觉这种设计很复杂,工作线程要查找每个图片的字段,如果以后有新的图片字段,那么这部分逻辑又需要改。

2150 次点击
所在节点    问与答
8 条回复
myoula
2016-02-16 13:52:53 +08:00
我用的方法是 先把图片的地址纪录在一个文件里
http://www.xxx.com/xxx/xxx.jpg
...

然后用 wget 批量下载
最后用 qiniu-cli 的工具 批量上传
ufo22940268
2016-02-16 13:55:51 +08:00
好像回源是解决这个问题的比较好的方案

https://support.qiniu.com/hc/kb/article/112824/
virusdefender
2016-02-16 14:09:01 +08:00
异步和多线程
sarices
2016-02-16 14:12:47 +08:00
放到队列处理啊
Karblue
2016-02-16 16:45:46 +08:00
1.多线程爬和传(可以一个队列专门处理爬虫投递过来的链接)
2.先爬。爬完再批量传
cloverstd
2016-02-16 17:34:42 +08:00
muziyue
2016-02-16 17:59:49 +08:00
根本不用下载再上传呀,设置好镜像可以直接存到七牛里面的
jedyu
2016-02-16 18:09:33 +08:00
爬链接和爬图片不要线性执行,多线程或多进程都可以

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/256826

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX