跪求某猫列表页抓取办法, 菜鸡我要自闭了.

2018-10-22 14:55:10 +08:00
 yellowmarlboro

比如 https://list.tmall.com/search_product.htm?s=0&cat=50103156&amp&brand=94136&amp&q=%B7%A2%C4%A4&amp&sort=s&amp&style=g&amp&search_condition=23&amp&from=sn__brand-qp&amp&active=1&amp&industryCatId=50103156&amp&spm=a220m.1000858.1000721.1.6bdd6701AdE1fX 想问有没有不需要登陆 /账号信息抓取的方法, 找了几个接口, 都需要登陆, 即使带上登陆 cookie 不久也会被封, 关键现在不给账号密码, 只有 cookie, 模拟登陆也不能. 有没有大佬有比较好的办法或者接口.

觉得这是一个很无理的问题 -.- , 不过我要自闭了

5089 次点击
所在节点    Python
24 条回复
locoz
2018-10-23 11:42:30 +08:00
给你个提示,尝试一下 H5 版本的搜索接口
locoz
2018-10-23 11:43:36 +08:00
然后就是阿里系的东西都需要有比较高质量的 IP 才能大量爬,账号不是必须的
zr8657
2018-10-23 15:46:07 +08:00
@murmur selenium 用 firefox 就检测不到 webdriver,Chrome 就能检测到,找了一天也没找出为什么,头晕
SpiderXiantang
2018-10-23 22:09:38 +08:00
selenium

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/499859

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX