抖音推荐列表视频爬虫

2019-08-29 11:10:07 +08:00
 cnbattle
基于 APP 爬取

相关技术:golang adb nodejs anyproxy

特点: 可设置仅抓取大于 xx 赞的视频

github: https://github.com/cnbattle/douyin

代码粗糙,主要分享下思路,这样的模式几乎可以抓取任何 APP HTTP API 的数据或内嵌 H5 数据,当然如果数据全部加密或编码传输的就不行了
12250 次点击
所在节点    Go 编程语言
90 条回复
az999
2019-08-29 11:48:58 +08:00
好的,已反馈给 抖音反爬组
darknoll
2019-08-29 13:14:08 +08:00
@az999 人家用真机,你反爬个卵啊
az999
2019-08-29 13:39:51 +08:00
@darknoll 嘴巴干净点,生活不如意 别冲我这里来。不惯着你
gunjianpan
2019-08-29 13:44:51 +08:00
@az999 宁可真干净

app 端抓取信息确实是目前很多服务获取信息比较稳定的手段
cnbattle
2019-08-29 13:50:15 +08:00
@az999
自己给个反爬办法 上 protobuf 二进制传输 或自己定个简单的加密 /编码方式 不外泄 就爬不了
glacer
2019-08-29 14:04:22 +08:00
@cnbattle 逆向 APP 不就行了?
trys1
2019-08-29 14:06:01 +08:00
用真机,成本好高
cnbattle
2019-08-29 14:07:06 +08:00
@trys1 虚拟机也行的
deepall
2019-08-29 14:09:40 +08:00
又是一个志同道合的小伙伴
cnbattle
2019-08-29 14:12:56 +08:00
@glacer 0.0 是可以,不过 逆向 app 相对来说 技术要求会高一些,会劝退我这样非专业做这个方向的人..
LeeSeoung
2019-08-29 14:14:27 +08:00
检查当前环境是否使用代理,是的话要求去掉代理,上 https,可以拦住很多人了
az999
2019-08-29 14:15:22 +08:00
@gunjianpan 别在这里阴阳怪气的,装什么呢?
cnbattle
2019-08-29 14:20:33 +08:00
@LeeSeoung 请问下, 如果不再真机 /虚拟机设置代理,在上游网络设置的话(如路由器设置代理),app 端能检测到吗? 不能很了解这块
LeeSeoung
2019-08-29 14:22:54 +08:00
@cnbattle 可以做,但是上了 https 就比较难搞,所以我才补了一句用 https,纯 http 你用 wireshark 或者其他工具抓网卡流量就行。
jinksw
2019-08-29 14:47:03 +08:00
半物理爬虫😆
cnbattle
2019-08-29 14:50:57 +08:00
@jinksw 简单粗暴😆
dabaibai
2019-08-29 14:58:35 +08:00
@LeeSeoung https 也能中间人公鸡....防毛爬虫..永远不可能有技术能防爬虫的. 当然,你可以数据不展示
golden0125
2019-08-29 15:05:09 +08:00
是用 go 在安卓端写了个后台 APP 抓流量吗?
Raymon111111
2019-08-29 15:06:52 +08:00
真机当然可以做风控

比如获取机器陀螺仪上的一些信息
tongyang
2019-08-29 15:14:28 +08:00
@az999 你这臭嘴 我佛了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/596130

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX