想利用爬虫( python 3)登录 Q Q 空间爬些东西,有没有好的方法模拟浏览器登录 QQ 空间

2015-11-03 18:56:56 +08:00
 lyning

玩爬虫第二天,所以很多还不太懂,本来想用爬虫批量爬 QQ 空间用户头像、昵称、还有对应发表过的说说图片,什么都不懂,网上查了一下资料,发现流程大概是:获取页面 html —>正则匹配—>保存下载想要的信息。
然后就写了一个简单的代码测试一下能不能拿到主页的个人图片:

!/usr/bin/dev python3

-- coding:utf-8 --

import urllib.request
import re
import os

def find_imgs(page_url):
pattern = r'<img .? src="( http://(\w+.)+\w+\/.?)"'
html = url_open(page_url).decode('UTF-8')
print(html) # 这里打印出来才知道原来还没登录
img_addrs = re.findall(pattern,html)
print(img_addrs) # 一直都没东西
return img_addrs

def save_imgs(addrs):
# 循环保存就不写了

def download():
os.mkdir('image') #新建文件夹
currentpath = os.getcwd() #获取当前工作目录
url = 'http://user.qzone.qq.com/'
img_addrs = find_imgs(url) #获取图片地址
save_imgs(img_addrs) #保存图片
if __name
_ == 'main':

download();

结果发现爬虫得先登录 QQ ,网上都是爬知乎、豆瓣、 V2EX 、淘宝....居多,希望给个例子参考或者推荐一些学习资源

10360 次点击
所在节点    Python
34 条回复
Victor215
2015-11-03 19:00:12 +08:00
qq 空间很难爬, over
bdbai
2015-11-03 19:00:45 +08:00
去问问 Linux 吧的 @guanrenfu
crab
2015-11-03 19:02:03 +08:00
lyning
2015-11-03 19:02:12 +08:00
@Victor215 那更想去爬爬看,现在卡在登录这里,死死地
SCaffrey
2015-11-03 19:04:57 +08:00
lyning
2015-11-03 19:09:50 +08:00
@crab 页面显示:该网站拒绝访问
ChoateYao
2015-11-03 19:11:27 +08:00
手机 QQ 空间,我只能帮你这么多了。
uuspider
2015-11-03 19:20:42 +08:00
这是个“模拟登陆”的问题,可能涉及 cookies ,代理, User Agent ,表单,甚至 RSA 。。。

一点一点分析吧。
SparkMan
2015-11-03 19:22:50 +08:00
qq 空间难度太大,建议你先爬淘宝,你几十个线程也不至于被封,也不至于把他爬挂了。小网站你多玩几次就把他玩死了
lyning
2015-11-03 19:26:38 +08:00
@SparkMan 难度大是大在哪里呢?
7z7
2015-11-03 19:28:41 +08:00
QQ 空间模拟登录算简单了, get 方式的,只有一个密码算法。返回的 cookie 就可以用于爬虫用了。
Victor215
2015-11-03 19:29:58 +08:00
难度大 第一 登录 第二 动态 第三 html 不规范 第四 反爬虫 第五 ……
lyning
2015-11-03 19:59:10 +08:00
@SparkMan 哈哈哈,原来爬虫那么厉害,小网站玩几下就死了
lyning
2015-11-03 20:01:08 +08:00
@Victor215 原来是这样,应该有办法伪装爬虫的性质吧,让浏览器认为那不是爬虫
magicfingers
2015-11-03 20:24:55 +08:00
你可以试试 import.io
w88975
2015-11-03 20:25:18 +08:00
之前有写过 QQ 的刷票器,利用的就是 QQ 空间的登录取到 cookie ,模拟登录这个过程有点繁琐,需要计算密码的加密,验证码,还有什么 skey 之类的。
搜索引擎搜一下能找到很多思路,稍微难一点的在于验证码部分。
kmahyyg
2015-11-03 23:14:38 +08:00
自动挂 wapqq 的有吗?
crytis
2015-11-04 00:03:52 +08:00
用 selenium 。哈哈
zzy8200
2015-11-04 04:52:01 +08:00
zzy8200
2015-11-04 04:52:27 +08:00

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/233331

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX