关于反爬 js 处理的问题

2023-04-05 00:14:29 +08:00
 wgit

获取下来的页面代码是这样的

<span class="rb504"></span>

他要执行一段 js 如

$(document).ready(function () {
    $('.rb504').html(8080);
    });

最后页面展示

<span class="rb504">8080</span>

在不使用无头浏览器的情况下

可以通过 bs4 和 execjs 处理后返回最终渲染后的页面代码吗

如果有其他方案也行,无头浏览器效率太低了

1597 次点击
所在节点    Python
8 条回复
yankebupt
2023-04-05 08:13:19 +08:00
(事先声明,可能没有帮助)
看你的样子是抓纯文字……不在乎样式、图片什么的……
无头浏览器你屏蔽图片了么?
llsquaer
2023-04-05 11:21:02 +08:00
看你演示代码也不算复杂..直接正则匹配下 js 中的代码就好了啊.何必去考虑模拟渲染啥的,没那么复杂
wgit
2023-04-05 11:42:04 +08:00
@yankebupt 啊这,原来还能屏蔽图片....
wgit
2023-04-05 11:49:21 +08:00
@llsquaer 目前是在用正则的,在想要是以后遇到比这个复杂的
无头要打开一个页面要发送至少十几个请求
只请求页面源代码的话只需要发送两个请求
如果网站限制每分钟最多多少次访问的话
在不增加代理 ip 数量的情况下,能不用无头是最好的
yankebupt
2023-04-05 16:02:49 +08:00
我只是觉得.ready 不是个好兆头

现在看着是个.ready 很简单,将来可能会挂一堆 eventListener,setInterval 和 Promise 在上面,利用事件的冒泡顺序来生成……
或者利用浏览器特定的非固定 tag 会被挤到 container tag 之外或者挤没之类的特有特性来验证混淆,逼你模拟 DOM 或生命周期……

当然 puppeteer 也可能被针对有时还不如简单请求,两说
yankebupt
2023-04-05 16:18:26 +08:00
不让贴 GPT 回答,不过我问了下,说 puppeteer 不光 headfull 模式,headless 模式也可以加 cache ,多开几个 page 就行,js 只读取一次就行,除非站点反爬抽风,把 js cache disable 了,不过那会影响用户浏览的......
不知真的假的
hxy100
2023-04-05 17:57:49 +08:00
无头浏览器其实是成本最低的做法,否则针对不同的网站,不管是 PyExecJS 还是正则匹配,你都需要去扒他的 JS 逻辑和算法,很麻烦,简单的网站还可以这种操作,复杂的、JS 代码经过混淆编译的,那基本就是噩梦。
luzihang
2023-04-06 09:17:45 +08:00
这不算反爬吧,直接正则获取 js 里的值就行

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/929877

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX