对于这样反爬网站,怎么破解?

69 天前
 godall
中国理财网,https://www.chinawealth.com.cn/lcweb/management/proScreen ,也不是要爬全部数据,只是爬几个知道代码的数据每天的变化情况,因为自己不同银行购买的,看起来麻烦。

最近改版后就不知道怎么爬了,技术特点:
1. 网站采用了一个复杂的 js 文件进行混淆和加密,所有网页的查询请求都先调用 js 文件进行加密后,作为 form data 进行提交。
2. 如果采用 playwright 网页模拟点击来操作呢,他界面上好多数据都隐藏了,网页隐含调用/lcw-fe-service/prodInfo/getProductDetail 这个接口返回的 json 数据不知道怎么读取。

以上解决任何一个问题都可以,请大家帮忙给个思路
1480 次点击
所在节点    程序员
5 条回复
zqr10159
69 天前
建议上截图,要爬什么内容
jianyang
69 天前
![到这里能看明白了吧]( https://imgur.com/a/yZrcy5I)
jianyang
69 天前
为什么不显示图片 -。-
relakkes
69 天前
playwright 可以触发操作然后拦截 ajax 请求的,把自己需要的 API 过滤一下解析响应就可以了
v2048
68 天前
想起了影刀 rpa ,感觉可以实现需求,不用考虑接口逻辑

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1151901

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX