想爬一下 coursera.org,遇到了问题

2015-11-21 21:49:02 +08:00
 feather12315
在学习爬虫,看到了这篇文章:
[Python 爬虫(二)--Coursera 抓站小结]( http://www.jianshu.com/p/c3dbf8294c33)
就想爬一下。但是发现 couresra 现在的登陆方式与文章内容有出入,`csrf2-token`等不见了,出现了`csrf3-token` ,尝试了好几次,都没有模拟登陆成功 。水平太低,不知道怎么办了,求帮助。
正确的模拟登陆姿势是怎样的呢
1957 次点击
所在节点    Python
1 条回复
aragakiiyui
2015-11-24 16:40:44 +08:00
改了规则啊。。。貌似开了 api ,不过我懒得看,前段时间写了个模拟登录,成功了。不过代码删了。。你非要用写原生代码抓的话。登录页面有个 csrfToken , 你第一步用正则把这个抠出来。然后把你邮箱和密码 post 一下,貌似是这个地址:
https://www.coursera.org/api/login/v3Ssr?csrf3-token=你的 csrfToken 值。应该就能登录了。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/237933

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX