玩爬虫第二天，所以很多还不太懂，本来想用爬虫批量爬 QQ 空间用户头像、昵称、还有对应发表过的说说图片，什么都不懂，网上查了一下资料，发现流程大概是：获取页面 html —>正则匹配—>保存下载想要的信息。
然后就写了一个简单的代码测试一下能不能拿到主页的个人图片：

!/usr/bin/dev python3

-- coding:utf-8 --

import urllib.request
import re
import os

def find_imgs(page_url):
pattern = r'<img .? src="( http://(\w+.)+\w+\/.?)"'
html = url_open(page_url).decode('UTF-8')
print(html) # 这里打印出来才知道原来还没登录
img_addrs = re.findall(pattern,html)
print(img_addrs) # 一直都没东西
return img_addrs

def save_imgs(addrs):
# 循环保存就不写了

def download():
os.mkdir('image') #新建文件夹
currentpath = os.getcwd() #获取当前工作目录
url = 'http://user.qzone.qq.com/'
img_addrs = find_imgs(url) #获取图片地址
save_imgs(img_addrs) #保存图片
if __name_ == 'main':

download();

结果发现爬虫得先登录 QQ ，网上都是爬知乎、豆瓣、 V2EX 、淘宝....居多，希望给个例子参考或者推荐一些学习资源

w88975

2015-11-03 20:25:18 +08:00

之前有写过 QQ 的刷票器，利用的就是 QQ 空间的登录取到 cookie ，模拟登录这个过程有点繁琐，需要计算密码的加密，验证码，还有什么 skey 之类的。
搜索引擎搜一下能找到很多思路，稍微难一点的在于验证码部分。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/233331

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

想利用爬虫（ python 3）登录 Q Q 空间爬些东西，有没有好的方法模拟浏览器登录 QQ 空间

!/usr/bin/dev python3

-- coding:utf-8 --

download();