第一次写抖音爬虫,似乎遇到了奇怪的问题,是某种反扒机制吗?

2018-05-26 22:26:56 +08:00
 lwj253698
自己抓到的 url 的参数比网上教程的案例多了好几个属性,相同指令(比如都是用同一关键词搜索)的 url 的最后几个属性_rticket,as,cp,mas 随着时间变化,使用 python 再去 get 这些指令时返回的 json 就全是错误信息(服务器繁忙),而不是抓到的数据 json 这样了……
现在考虑这是某种校验机制,不知道猜测是否合理。。。
so weird,求 dalao 解救!
14299 次点击
所在节点    Python
39 条回复
soho176
2018-05-26 22:30:09 +08:00
抖音 app 咋抓的?
lwj253698
2018-05-26 22:32:10 +08:00
@soho176 就抓包啊
chengxiao
2018-05-26 22:33:18 +08:00
这种带加密校验的 不知道服务端加密方法的话 很难破解吧
可能只有反编译去找加密方法了
lwj253698
2018-05-26 22:35:33 +08:00
@chengxiao 真的是加密吗。。。能不能绕过它呀 我现在看到的每一个 url 后面都是加了这几个属性的,唯独分享时的那个 url 好像没有
chengxiao
2018-05-26 22:40:42 +08:00
@lwj253698 服务端肯定有校验的呀
soho176
2018-05-26 23:00:43 +08:00
问一下站长啊,我就在本贴回复了一下,为啥我的 ip 被封了?我的联通宽带分配的固定 ip,结果现在就是无法访问了
402124773
2018-05-26 23:02:30 +08:00
这种 app 在客户端这边也都是有加密的。例如,你抓客户端登陆,肯定不是 post 用户名和密码。而是加密后的东西。现在很多 app 大部分代码都在 so 库里面。
playniuniu
2018-05-26 23:15:09 +08:00
抖音的 app 是经过加密签名的 加密函数好像在 libuser.so 里面 网上有一篇详细分析加密过程的教程 可以参考一下
nine99
2018-05-26 23:19:00 +08:00
先用抓包工具的重放一遍那个请求看看 ,一般都是你的 python 发的请求在细节上和它原来的不一样导致的。如果 确定一样也不行,你再逆向下,看这几个参数怎么来的。
nine99
2018-05-26 23:20:53 +08:00
实在不行就直接用 hook 的方法来爬吧。
lwj253698
2018-05-27 00:50:33 +08:00
@playniuniu 好的!!谢谢
lwj253698
2018-05-27 00:51:39 +08:00
@nine99 我直接赋值那个包的 url 然后用 get 方法获得 response 的 json...如果这个都不一样的话我是真的不知道还有什么可能了
lwj253698
2018-05-27 00:53:55 +08:00
刚刚发现一个问题,我猜抖音对指令应该是向前兼容的,也就是说有一些疑似为校验的参数貌似不赋值居然也可以... 参见 http://(hhhh)cuijiahua.com/blog/2018/03/spider-5.html/comment-page-1/#comments
lwj253698
2018-05-27 00:55:45 +08:00
= =实在是浪费了我六七个小时呢
empty9
2018-05-27 01:26:22 +08:00
之前研究过,逆向了他们 apk 实际上很简单,唯一坑的地方是有的 api 都是要求你登录,并验证 cookies。
fange01
2018-05-27 01:27:23 +08:00
若若的问一句,是爬抖音的视频,导入其他平台做流量吗》?
patx
2018-05-27 01:33:51 +08:00
抖音我没试过,其他的视频网站只会对 url 参数做签名。
k00baa
2018-05-27 03:26:21 +08:00
apk 逆向,然后 hook,那些参数就出来了
locktionc
2018-05-27 08:32:36 +08:00
as,cp, mas 的算法请看这里:![]( http://7sbpmp.com1.z0.glb.clouddn.com/2018-05-27-08-28-44.png)
_rticket 只需要根据它的格式随机生成一个字符串即可,也可以省略。
myliyifei
2018-05-27 08:50:21 +08:00
有一个人分享的抖音 url,因为名字的原因。我想从 url 分析,找到这个人的抖音 id,可以吗

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/458032

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX