关于爬虫:单击按钮后,真实的浏览器如何判断应该发送什么、是否需要带服务端返回的 cookie 等等?

2019-02-02 16:07:36 +08:00
 smyle
网上的爬虫快餐教程几乎都是 F12,自己操作一遍,然后照葫芦画瓢把相应关键字段复制到自己的代码里,发送

问题是,浏览器自身显然是根据网页内容(或者返回的 header 等)就能判断应该发送什么:是 get 还是 post、登录表单中的用户名 key 名是 user、username 还是 user_name、哪些请求用 ajax、哪些内容用 bs64 解密、哪些请求要带 cookies 哪些不用带……等等,都是浏览器自己撸起袖子直接干,根本不需要像爬虫教程里那样先 F12 观察一遍

如果了解这些的话,有时写请求代码应该比 F12 观察更精准吧?
有没有大佬能简单介绍一下最常用的一些情况,或者推荐下合适的文章或书。thx
2332 次点击
所在节点    程序员
22 条回复
Hieast
2019-02-03 12:14:58 +08:00
楼主需要去找一两篇讲浏览器架构的文章读一读
megachweng
2019-02-03 16:13:07 +08:00
典型的想的太多,学的太少。必经阶段加油

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/532678

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX