关于反爬 js 处理的问题

获取下来的页面代码是这样的

<span class="rb504"></span>

他要执行一段 js 如

$(document).ready(function () {
    $('.rb504').html(8080);
    });

最后页面展示

<span class="rb504">8080</span>

在不使用无头浏览器的情况下

可以通过 bs4 和 execjs 处理后返回最终渲染后的页面代码吗

如果有其他方案也行，无头浏览器效率太低了

wgit

2023-04-05 11:49:21 +08:00

@llsquaer 目前是在用正则的，在想要是以后遇到比这个复杂的
无头要打开一个页面要发送至少十几个请求
只请求页面源代码的话只需要发送两个请求
如果网站限制每分钟最多多少次访问的话
在不增加代理 ip 数量的情况下，能不用无头是最好的

yankebupt

2023-04-05 16:02:49 +08:00

我只是觉得.ready 不是个好兆头

现在看着是个.ready 很简单，将来可能会挂一堆 eventListener,setInterval 和 Promise 在上面，利用事件的冒泡顺序来生成……
或者利用浏览器特定的非固定 tag 会被挤到 container tag 之外或者挤没之类的特有特性来验证混淆，逼你模拟 DOM 或生命周期……

当然 puppeteer 也可能被针对有时还不如简单请求，两说

yankebupt

2023-04-05 16:18:26 +08:00

不让贴 GPT 回答，不过我问了下，说 puppeteer 不光 headfull 模式，headless 模式也可以加 cache ，多开几个 page 就行，js 只读取一次就行，除非站点反爬抽风，把 js cache disable 了,不过那会影响用户浏览的......
不知真的假的

hxy100

2023-04-05 17:57:49 +08:00

无头浏览器其实是成本最低的做法，否则针对不同的网站，不管是 PyExecJS 还是正则匹配，你都需要去扒他的 JS 逻辑和算法，很麻烦，简单的网站还可以这种操作，复杂的、JS 代码经过混淆编译的，那基本就是噩梦。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/929877

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.