跪求某猫列表页抓取办法, 菜鸡我要自闭了.

2018-10-22 14:55:10 +08:00
 yellowmarlboro

比如 https://list.tmall.com/search_product.htm?s=0&cat=50103156&amp&brand=94136&amp&q=%B7%A2%C4%A4&amp&sort=s&amp&style=g&amp&search_condition=23&amp&from=sn__brand-qp&amp&active=1&amp&industryCatId=50103156&amp&spm=a220m.1000858.1000721.1.6bdd6701AdE1fX 想问有没有不需要登陆 /账号信息抓取的方法, 找了几个接口, 都需要登陆, 即使带上登陆 cookie 不久也会被封, 关键现在不给账号密码, 只有 cookie, 模拟登陆也不能. 有没有大佬有比较好的办法或者接口.

觉得这是一个很无理的问题 -.- , 不过我要自闭了

5085 次点击
所在节点    Python
24 条回复
Yourshell
2018-10-22 15:01:33 +08:00
你模拟一下浏览器, 别直接 requests。
insomnia1232
2018-10-22 15:06:11 +08:00
把 useragent 改成浏览器?反正就是伪装成浏览器
ljspython
2018-10-22 15:13:02 +08:00
没代理池你还想爬天猫?
jdgui
2018-10-22 15:14:54 +08:00
帮忙人工置顶。。
之前遇到过一个外包,考虑到阿里变态的反爬虫没做。
坐等大佬答疑解惑,有答案了 @我一下。。
beny2mor
2018-10-22 15:15:21 +08:00
算了呦
你猫的账号被封了怎么办。。。
PulpFunction
2018-10-22 15:19:51 +08:00
哈哈 我有方案,已经成熟

正研究店铺所有物品
VDimos
2018-10-22 15:24:25 +08:00
没点儿 ip 敢爬阿里系,佩服
realpg
2018-10-22 16:19:06 +08:00
小学生挑战哥德巴赫猜想系列
Nimrod
2018-10-22 20:06:03 +08:00
点进来之前以为是猫眼的我 233333
huaerxiela
2018-10-22 20:20:34 +08:00
登陆账号也会各种验证你
zhijiansha
2018-10-22 20:23:16 +08:00
是不是频率太快了?
251243021
2018-10-22 20:26:35 +08:00
ip 池.不然稍微多了点就被会扳
zr8657
2018-10-22 21:54:16 +08:00
selenium 打开百度,用那个百度搜天猫,然后打开就不会直接要求你登录了。还是多换 IP,我也正在爬某猫
alcarl
2018-10-22 22:03:33 +08:00
我很好奇,爬这个有啥用吗?
cdwyd
2018-10-22 22:10:20 +08:00
天猫的反爬虫挺变态的,貌似会自我学习,你研究出来一个办法,过一段时间后就失效了
murmur
2018-10-22 22:50:13 +08:00
爬阿里系可悠着点 毕竟自己还要用支付宝和淘宝
murmur
2018-10-22 22:51:51 +08:00
@zr8657 阿里的代码里很容易就找到$cdc_asdjflasutopfhvcZLmcfl_"in document||navigator.webdriver 这种检测自动化的代码
兄弟是自己改过变量名重新编的么
ctro15547
2018-10-22 22:54:27 +08:00
需求说明白点?。。这种页面如果牺牲效率的话,爬起来挺简单的。。
wmhx
2018-10-22 22:59:12 +08:00
国内的需要手机号, 而且都比较变态啊 , 那点钱真不值得.
update
2018-10-23 09:12:52 +08:00
试试 chrome 的 Web Scraper 插件

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/499859

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX