有大神研究过 36kr 的视频栏目接口吗?

2020-05-02 12:40:07 +08:00
 zhengfan2016

这个接口也是没找到和 page 有关的参数,我大概猜和 pagecallback 有关 于是我从 36kr 的 html 里抓出 pagecallback 的值,加进 post 请求,header 只加了 ua 然后,接口提示我没加 contenttype,我大喜,离成功仅一步之遥,把 contenttype 加上,却没有返回我想要的东西, 然后,我把 header 能加的都加了,还是不行,就返回一个 tomcat 的网页 求大神指点一二

3178 次点击
所在节点    Python
7 条回复
hlwjia
2020-05-02 12:59:55 +08:00
你这是要爬遍中文科技媒体

pingwest, ifanr 下周预告
zhengfan2016
2020-05-02 13:03:03 +08:00
@hlwjia 😂我只是想做一个它们的 kodi 插件,方便在电视上用遥控器看视频
V2tizen
2020-05-02 16:07:33 +08:00
data = json.dumps(d) 试试
zhengfan2016
2020-05-02 16:38:22 +08:00
@V2tizen 卧槽,成功了,谢谢大神!
ClericPy
2020-05-02 18:28:23 +08:00
pageCallback 是个 base64, 解码就明白什么规则了, 总体不是太复杂吧, 翻页就是通过这参数搞的

{"firstId":2918165,"lastId":2916690,"firstCreateTime":1588221046000,"lastCreateTime":1588136451000}

{"firstId":2919576,"lastId":2918231,"firstCreateTime":1588413629000,"lastCreateTime":1588224626000}

怎么抓一个问一个... 如果不擅长 js 什么的, 不如考虑直接 Headless chrome 算了......
mousenonng
2020-05-03 01:02:52 +08:00
请求类型是 application/json 的你要将 dict 转换为 json 对象在去请求,更方便的是 json=d 。如果是表单格式的就直接用 data=d,
GeorzGO
2020-10-29 09:36:57 +08:00
博主解决这个问题了吗?我想爬它的资讯信息,但最近也是卡这一步不知道翻页参数在哪里看,pagecallback 解码了之后是有一些字段信息,但看不懂,不知道用了什么黑科技。博主要是解决了一定 ballball 我啊😭

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/668049

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX