这个网站的登录功能设置的变态,算法复杂 没有办法直接用 requests 登录
所以只能用 selenium 登录
但是登录后,如何获取指定 url 比如 /getUserinfo 的数据呢 ? 这个链接,直接访问会返回错误 而登录后,进入 页面 /index 的时候 ,/index 页面会自动去 ajax 请求 /getUserinfo 并会返回正确的数据 如何在 /index 页面自动请求 /getUserinfo 的时候,获取到他返回的内容呢?
另外这个网站,有强烈的声明,发现任何爬虫痕迹就会封号,如何最大程度的看起来像个人在访问呢?
我要抓取的数据量很小,每天就不到 100 个请求,可能 50 个左右,这个请求量 应该是正常的
如果我把 selenium 登录后的 cookies 分享给 requests ,会被对方发现是机器人吗?因为 requests 的 header 可能和 selenium 不一样,会被对方发现,或者 selenium 自身有没有类似 requests 这样,可以自定义请求网页的接口?
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.