浏览器爬虫再进化

2024-04-02 08:17:48 +08:00
 sofukwird

通过 http proxy server 暴露浏览器资源, 基于 webrtc, 是直连, 无需二次中转

具体请看视频演示: https://youtu.be/czWW5xlfcS8

当前测试版目标用户为使用 WireGuard 的 linux 用户 核心源码暂未公开, 建议在虚拟机中尝试. xhe-vpn 目前仅支持 linux(windows 端需求反响强烈的话速度肝出 windows 端)

git 仓库: https://github.com/remoon-net/xhe-webvpn 社区讨论: https://github.com/remoon-net/xhe-webvpn/discussions 问题反馈: https://github.com/remoon-net/xhe-webvpn/issues


相比上次的版本去除了中心化, 虽然导致了配置更加繁琐, 但独立部署更简单了

10664 次点击
所在节点    程序员
51 条回复
danbai
2024-04-02 08:24:08 +08:00
这个是用来抓包吗
coinbase
2024-04-02 08:31:00 +08:00
cloudflare 防得住吗
cherryas
2024-04-02 08:34:41 +08:00
不会爬虫的觉得很酷,会爬虫的觉得有点莫名其妙
musi
2024-04-02 08:39:44 +08:00
我找个抓包工具不行吗?
R18
2024-04-02 08:45:38 +08:00
不是很懂,你的这个东西的场景在哪里,原生不是支持通过 browserWSEndpoint 来访问浏览器资源吗
macaodoll
2024-04-02 08:58:35 +08:00
自己搭个 HTTP 代理过滤流量?与浏览器插件有何区别?如果说访问 HTTP 请求,这块有现成的东西可以用,而且比你这套方便成熟
sofukwird
2024-04-02 09:04:46 +08:00
@coinbase 就是用来过 cloudflare 首次验证的
coinbase
2024-04-02 09:07:14 +08:00
@sofukwird 悟了,等会儿试试,能过 cloudflare 就是牛逼
iyiluo
2024-04-02 09:07:38 +08:00
浏览器爬虫效率很低吧,免去了解密,但是效率是真低啊,只能爬小批量的数据
godleon
2024-04-02 09:13:27 +08:00
演示视频里的电脑系统 ui 是什么
sofukwird
2024-04-02 09:27:10 +08:00
@godleon Debian 12 - KDE Plasma 5.27.5
Jesmora
2024-04-02 09:28:48 +08:00
啊这,一个好点的 IP 开个 tun 也能过 cf 啊,再不济 py 库有个过 cf 的啊
RangerWolf
2024-04-02 09:53:08 +08:00
@Jesmora py 哪个库能过 CF ?
LevineChen
2024-04-02 09:54:13 +08:00
没明白, chromium 本身不就提供远程访问的接口吗? 你这个绕了一圈是解决了什么特别的问题吗
0o0O0o0O0o
2024-04-02 10:00:01 +08:00
如果重点是浏览器与 VPN ,https://github.com/tailscale/tailscale/issues/3157 https://twitter.com/bradfitz/status/1451423386777751561 更酷更方便,是更应该研究的方向

如果重点是过 cloudflare ,实际上你的设计中主要是借用 IP ,有太多方式可以将一台 Linux 电脑的 IP 共享给远程的应用程序使用,同样不需要 root 权限

如果重点是方便应用程序自动化控制浏览器,容器与 selenium puppeteer playwright 更优雅也有更繁荣的生态,例如 https://github.com/FlareSolverr/FlareSolverr
jones2000
2024-04-02 10:00:57 +08:00
”进化“ 不应该是什么配置都不用设,自适应最佳配置, 直接就能用。
james122333
2024-04-02 10:03:41 +08:00
firefox 有 marionette
sofukwird
2024-04-02 10:10:50 +08:00
@0o0O0o0O0o
1. 浏览器与 VPN ,是的这很酷,我实现了
2. 不是通过借 IP 的方式过 cloudflare ,而是接管通过了真人验证的浏览器页面来过
3. 这个演示的重点是通过 http proxy 和应用程序集成,不依赖 puppeteer (这点蛮难解释,过段时间我把一个项目改造后开源就更清楚这是怎么做的
ll5270
2024-04-02 10:56:01 +08:00
没看明白用途是啥
trigged
2024-04-02 11:04:58 +08:00
基于 devtools-protocol ?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1028977

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX