对于我这种网络爬虫，应该使用哪种模型来加快效率呢？

2014 年 6 月 3 日

LetFoxRun

举个例子，写一个网络爬虫有以下步骤：
1.抓取网页（打开网页）
2.解析网页内容
3.下载网页里面的内容（比较费时）

我们可以将上面三个步骤简化为2个，即 1.打开网页 2.解析网页并下载内容

如果更效率的完成上面的操作呢？

有好的回复，必发送感谢！

3713 次点击

所在节点

12 条回复

pathletboy

2014 年 6 月 3 日

打开网页解析并下载

binux

2014 年 6 月 3 日

取决于你网速，除非你连怎么占满带宽都不知道。

shoumu

2014 年 6 月 3 日

下载的内容是什么内容

faceair

2014 年 6 月 3 日

多线程或者用回调

LetFoxRun

2014 年 6 月 3 日

@binux
其实我是想问下，基本常用的都有哪些模型，哪些方法。

比如，多进程，多线程，异步，父子进程。

假如需要下载的东西比较费时（需要1分钟能下载成功），但是比较小，10kb，一般情况下，这种应该使用什么模型或方法？

求多说两句，谢谢。

oIIo

2014 年 6 月 3 日

为什么不搜一搜呢，网上搜spider或者crawler，各种文章，各种源码都有，够你参考了。

diaoleona

2014 年 6 月 3 日

scrapy or scrapyd

alexapollo

2014 年 6 月 3 日

异步编程妥妥的

LetFoxRun

2014 年 6 月 3 日

@oIIo
我是以爬虫为例，实际情况可能是其他类似的情况。

主要想知道有哪些更好的方法或模型。

imn1

2014 年 6 月 3 日

一切取决于量～
爬一个网页和爬一个网站做法完全不同

binux

2014 年 6 月 3 日

@LetFoxRun 只能说都可以，不如你自己都了解下

codingpp

2014 年 6 月 3 日

异步回调了，其他不考虑
一次发起上万个请求

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.