第一次写抖音爬虫,似乎遇到了奇怪的问题,是某种反扒机制吗?

2018-05-26 22:26:56 +08:00
 lwj253698
自己抓到的 url 的参数比网上教程的案例多了好几个属性,相同指令(比如都是用同一关键词搜索)的 url 的最后几个属性_rticket,as,cp,mas 随着时间变化,使用 python 再去 get 这些指令时返回的 json 就全是错误信息(服务器繁忙),而不是抓到的数据 json 这样了……
现在考虑这是某种校验机制,不知道猜测是否合理。。。
so weird,求 dalao 解救!
14327 次点击
所在节点    Python
39 条回复
WinMain
2018-05-27 10:01:12 +08:00
github 上有一个很好用的,为了做视频分类,已经爬了十来万视频了。。
https://github.com/LoadChange/amemv-crawler
nine99
2018-05-27 10:44:10 +08:00
header 的参数设了吗
peterpei
2018-05-27 10:46:28 +08:00
@myliyifei 同样有这样的思路,借鉴了抖音 id 长度并没有发现有相同长度的 id 号,看起来是加密了。。。
lwj253698
2018-05-27 13:45:59 +08:00
@locktionc read error ?
lwj253698
2018-05-27 13:49:03 +08:00
@WinMain 其实我对这个分类倒是不是太在意。。。因为我接下来还会做一些筛选,打算用 opencv 筛选出只有人像上半身的视频
lwj253698
2018-05-27 13:49:45 +08:00
@empty9 如何验证 cookie 呢?用那几个参数吗?
locktionc
2018-05-27 13:50:04 +08:00
@lwj253698 用的七牛云图床,我这里可以正常显示图片。
lwj253698
2018-05-27 13:50:18 +08:00
@fange01 不是呀,帮老板搜集训练集。。。
lwj253698
2018-05-27 13:58:39 +08:00
@peterpei 是那个 iid 的参数吗
lwj253698
2018-05-27 13:59:53 +08:00
@locktionc 嗯嗯看到了…比我想象得要简单( ・᷄ὢ・᷅ )
lwj253698
2018-05-27 14:17:10 +08:00
@locktionc emmm 其实我发现其实只要把这几个参数全部省略掉就可以访问了,也是很奇怪了
KomeijiSatori
2018-05-27 15:22:16 +08:00
![Snipaste_2018-05-27_15-21-51.jpg]( https://i.loli.net/2018/05/27/5b0a5c9a9a2a6.jpg)

买个 Surge 吧
locktionc
2018-05-27 16:13:38 +08:00
@lwj253698 不能省略,因为一旦省略,他们就知道这不是正常的 App 请求。于是就可以封你。即使你用代理每一次请求都换,他也可以来一次封一次。省略了以后你的爬虫就是去送死。
hteen
2018-05-27 20:39:22 +08:00
@locktionc 为什么我抓的接口里面 mas 是 54 位 str, 你给加密方法是 50 位 str😂
bankroft
2018-06-06 20:09:45 +08:00
我的博客写过抖音全站爬虫,发不了链接,百度搜索 bankroft
wjx1993
2018-06-21 23:21:26 +08:00
为什么抖音我都抓不到包?
cjcgynpu
2018-06-26 12:41:32 +08:00
嗯, 去哪儿前反爬虫工程师去了头条。
只能说这么多了。
lwj253698
2018-07-06 16:44:07 +08:00
@cjcgynpu = =现在必须要登陆了 真滴要死
Trinity888
2022-05-18 13:50:29 +08:00
@lwj253698 楼主,现在抖音 App ,还能爬虫获取数据吗?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/458032

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX