爬虫极大困难:今日头条

2018-06-21 12:33:26 +08:00
 rocketman13

今日头条利用 js 加密 url 中的参数_signature=IOxKnAAAe85OfzsuWtv0ECDsSo 利用 js2py 或 pyV8 怎么解决 最新版的今日头条,反爬技巧升级了

9094 次点击
所在节点    互联网
31 条回复
cdwyd
2018-06-21 12:37:59 +08:00
不知道现在还是不是,我之前爬的时候费了半天劲把 hs 加密用 python 重写一切都搞定以后又喵了一眼 js 加密部分,竟然明文写了一个万能的 key
cdwyd
2018-06-21 12:38:18 +08:00
hs>js
ctsed
2018-06-21 12:57:52 +08:00
pptr
ACool
2018-06-21 13:01:27 +08:00
写爬虫的要小心罗,爬数据要被判刑滴
https://www.v2ex.com/t/464477
滑稽
3dwelcome
2018-06-21 13:05:02 +08:00
没什么是 headless 解决不了的。
willhunger
2018-06-21 14:49:59 +08:00
今日头条的垃圾内容也值得爬?
miyuki
2018-06-21 15:30:11 +08:00
头条抓完你再抓
hnbcinfo
2018-06-21 15:42:25 +08:00
我就喜欢破解各种加密字符串,等我给你搞定它
xbigfat
2018-06-21 15:52:04 +08:00
@hnbcinfo 层主可以帮忙破解个字符串加密么。。完全没有头绪 doge
hnbcinfo
2018-06-21 16:00:35 +08:00
@xbigfat 声明,纯属娱乐,不建议用于非法用途。

先看接口参数,目前可以断定,用于防爬策略的是 AS、CP 和_signature 字段,其他均为数据筛选参数。



巧了,我今天没事,帮楼主玩玩。一个一个的来,走到哪一步算哪一步,楼主也别抱太大希望,毕竟人家头条技术人员也不是吃干饭的。
hnbcinfo
2018-06-21 16:11:10 +08:00
AS 已经破解,如图,CP 和它差不多,估计一会就能猜出来。高估了头条了,不过我估计最后的 signature 应该不容易

hnbcinfo
2018-06-21 16:12:45 +08:00
上面的第 5 步表达错了,更正下:16 位时间戳 T16 ---> 16 进制时间戳 T16
hnbcinfo
2018-06-21 16:38:00 +08:00
CP 类似,CP 字符串的前 4 位+第 6 位+第 8 位+第 10 位+第 12 位,组合起来的 8 位为时间戳 16 进制的表示。剩下的 6 位没怎么看出来,楼主可以自行研究下。

signature 还没看,不过我估计是猜不出来的,抽空我再看看。现在下班了,明天有时间在弄吧

P.S. 一旦加密串被猜出来,估计人家就要修改了。所以不保证能用多长时间
hnbcinfo
2018-06-21 16:42:26 +08:00
在纠正下,11 楼中,第 3 步,写的匆忙,应该是对 T 进行 MD5 加密,而不是 T16。抱歉
hnbcinfo
2018-06-21 16:49:08 +08:00
下班前算出 CP:
CP=T16 前 4 位+M(27)+T(4)+M(28)+T(5)+M(29)+T(6)+M(30)+T(7)+M(31)+’ E1 ’
ful1v1dcker
2018-06-21 16:52:28 +08:00
所以。。。楼主是捡垃圾的?[doge]
LeungV2
2018-06-21 16:58:22 +08:00
还以为赶上直播了 这就歇菜了?
rocketman13
2018-06-26 21:00:21 +08:00
@cdwyd 所以能告诉我解决方案吗?
rocketman13
2018-06-26 21:00:32 +08:00
@ctsed 什么意思???
rocketman13
2018-06-26 21:01:00 +08:00
@3dwelcome selenium 技术含量不高啊

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/464685

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX