初学爬虫，设计一个定向爬虫策略，请大家帮我看看，是否合理？

哪些地方需要改进和注意的地方，或更好的爬虫策略。

下面是伪代码欢迎批评指正！

数据模型

class Obj:
    pass

常量

Objs = []   对象容器
IPS = []    代理池

函数

1. 构造代理 ip 池
def  build_ips():
    ....
    return ips

2. 下载页面
- 随机选取代理 ip 下载页面，限制 timeout ，超时或异常更换 ip ，最多重试 5 次
- 基础页下载(含 params 参数)，详细页下载不含参数
def  download_html(url,params=None)
    ....
    return html

3. 构造参数组合(不包含页码)
- 如:城市+关键字 的组合
def build_params_lst(citys,kds):
    ....
    return params_lst

4. 解析基础页(带请求参数，不含页码),构造 Obj-->Objs
- 页码上限设置很大。
- 参数=原参数+页码。
- 解析基础信息(至少包含详细页面 url)并 push 到 Objs 列表
- 该页码下内容为空则 return ，中断页码遍历

def parse_html(params)
    obj = Obj()
    obj.name = ....
    ....
    Objs.append(obj)
    return None

5. 解析详细页面,更新 obj 详细信息。
def get_detail(obj):
    url = obj.url
    ....
    obj.detail = ...
    return None

程序执行

1. IPS = build_ips()
2. params_lst = build_params_lst()
3. 多线程基础下载解析  函数： parse_html 参数迭代器: params_lst
4. 多线程详细页面下载解析  函数： get_detail 参数迭代器 Objs
5. 遍历 Objs ，添加 obj 到数据库

murmur

2016-06-17 16:43:02 +08:00

代码我就不看了
总结一下：
（ 1 ）如果是真的用的爬虫，而不是出于练习目的，那么任何一个开源爬虫都比你的好，无论是 nutch 还是 scrapy 还是其他的
（ 2 ）即便是练习，重点也要放在内容提取，就是定向爬虫部分，而不是仅仅收录就可以，比如你去比价，去抓评价，所以可以基于一个现有的爬虫开发，去做垂直抓取那部分
（ 3 ）爬虫的异常处理永远是难点，尤其是有随机插入白色字符的、需要注册的、访问太快就 ban 的、要验证码的等