Python 爬虫模拟登陆的一些问题

import Requests

有三个 url ，登陆页面，表单提交页面，登陆返回页面

首先浏览器过程如下：

1.登陆要输入验证码，验证码在登陆页面显示

2.输入登录信息之后， post 表单到表单提交页面

3.然后页面跳转到登陆返回页面，也就是我要抓取的页面

我用爬虫模拟登陆，然后抓取登陆返回页面的信息

requests.get 登陆页面，然后提取页面中的验证码链接，但是验证码链接刷新，验证码就会变化

验证码页面 http://ah.189.cn/sso/VImage.servlet?random=0.17272478651825085 （参数在登陆页面是会变化的）

requests.port 表单提交页面（验证码，我通过 ocr 验证码图片来解决）

我现在有三个个问题：

我提取到的验证码能否 post 成功（不能保证是否同步）？
requests 这三个页面，带的 cookies 和 headers 是否相同？
用之前 post 过程中的 cookies 和 headers 来直接抓取登陆返回页面？

谢谢

jackyspy

2016-07-30 19:17:53 +08:00

@Huayx9 不需要自己手工管理 cookie
```
import requests
s = requests.session()
print(s.get('http://httpbin.org/cookies').json())
s.get('http://httpbin.org/cookies/set?sessionid=abcdefg')
print(s.get('http://httpbin.org/cookies').json())
```
Output
```
{'cookies': {}}
{'cookies': {'sessionid': 'abcdefg'}}
```

Huayx9

2016-07-31 10:13:32 +08:00

@jackyspy 昨晚折腾了好久， cookie 终于弄明白了。

可是登录 post 表单到一个接收页面， post 和获取验证码带的都是之前的 cookies （初始化）。

在浏览器下，显示是登录之后跳转到之后的页面， header 是带上新的 cookie （登录成功）来 get 的。

但是代码在 post 之后，从哪儿得到登录成功的 cookie 。。

aeshfawre

2016-07-31 22:34:51 +08:00

@Huayx9 所以让你研究 Seesion(), 这个功能就是帮你处理了 cookie 的所有事情,也就是不需要考虑 cookie 的问题的.
登录成功之后服务器会在返回的数据包中给你 cookie,而这个返回的 cookie 会自动被 requests 处理好,存放起来的,你后面继续 get,post,这 cookie 会自动帮你加上的.

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/295960