请教一下爬虫技术

64 天前
 yurman

淘宝的生意参谋,这种平台为啥有全网各平台的数据,甚至还可以看竞争对手的数据。。。 我用 rpa 试过模拟人的操作去获取,效率低不说还经常会被封号。它们这种平台是如何做到不会被封号,还能实时更新最新数据,这是怎么做到的?

3913 次点击
所在节点    程序员
20 条回复
Motorola3
64 天前
你难道就没想过 有 openAPI 吗?
securityCoding
64 天前
买的数据
ZSeptember
64 天前
应该是互相爬的吧。
前段时间还有新闻,京东的爬虫被 pdd 屏蔽了。https://36kr.com/p/2610860492414852
ZSeptember
64 天前
爬虫是有技术的,淘宝的听说就挺难搞的。
yurman
64 天前
@Motorola3 有猜过是走接口,老板不知道哪里看的别人说是用啥爬虫技术实现的,我觉得不可能有这样的能够大量爬取还能防封
yurman
64 天前
@ZSeptember 淘宝是很麻烦,已经是低量数据爬取,完全模拟人为操作。偶尔还是能触发警告
BeiChuanAlex
64 天前
很简单,买数据,给钱就能办到。你陷入到了技术的思维漩涡,线下花钱可以办到线上花大力气都办不到的事情。
yurman
64 天前
@BeiChuanAlex 我是觉得是没有啥技术能做到,可惜我只是个打工仔,老板不信 :(
wanniwa
64 天前
有的公司是专门成立爬虫组,立项去攻克研究的。投入成本就会有收获。一步步去拆解剖析
DT27
64 天前
淘宝我真人去访问都费劲,动不动就弹验证,还经常验证失败。。。
yahooer
64 天前
也有第三方接口供应商 像淘宝的比如这个 www.idatariver.com/zh-cn/projects
lilei2023
64 天前
淘宝这个真人访问,都经常弹,被人机器了,真恶心,
angryfish
64 天前
商业级爬,是需要资源的。
你有多少个独立的 ip 地址?你有多少个用户号?
曾经在某旅游网站做个爬友商相关的项目,光买 ip 资源就用了三百万,还不包含自己机房的 ip
该花的钱还是得花。
corcre
64 天前
淘宝的反爬做的挺好的(甚至能防正常用户), 目前说到低成本爬淘宝数据站立的老哥一个个都是摇头
Blanke
64 天前
有商业的成熟方案,很多数据公司内部都是全网怕,tb jd pdd 这些都是基操了,只要花得起升本,肯定能搞定
Blanke
64 天前
@Blanke 打错。有商业的成熟方案,很多数据公司内部都是全网爬,tb jd pdd 这些都是基操了,只要花得起成本,肯定能搞定
lizhenda
64 天前
@angryfish 我觉得这 300w 大概率是被中间吃回扣吃掉了
sergio948
64 天前
我最近看豆瓣的反爬也是挺 6 的,第一次遇到,看抓包情况好像是做了加密,反正没看懂
wanniwa
64 天前
@sergio948 #18 豆瓣可是以前所有爬虫新手的最爱爬的网站了。估计被爬怕了
hackerfans
64 天前
淘客有 API

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1020678

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX