浏览器爬虫再进化

44 天前
 sofukwird

通过 http proxy server 暴露浏览器资源, 基于 webrtc, 是直连, 无需二次中转

具体请看视频演示: https://youtu.be/czWW5xlfcS8

当前测试版目标用户为使用 WireGuard 的 linux 用户 核心源码暂未公开, 建议在虚拟机中尝试. xhe-vpn 目前仅支持 linux(windows 端需求反响强烈的话速度肝出 windows 端)

git 仓库: https://github.com/remoon-net/xhe-webvpn 社区讨论: https://github.com/remoon-net/xhe-webvpn/discussions 问题反馈: https://github.com/remoon-net/xhe-webvpn/issues


相比上次的版本去除了中心化, 虽然导致了配置更加繁琐, 但独立部署更简单了

8158 次点击
所在节点    程序员
50 条回复
danbai
44 天前
这个是用来抓包吗
coinbase
44 天前
cloudflare 防得住吗
cherryas
44 天前
不会爬虫的觉得很酷,会爬虫的觉得有点莫名其妙
musi
44 天前
我找个抓包工具不行吗?
R18
44 天前
不是很懂,你的这个东西的场景在哪里,原生不是支持通过 browserWSEndpoint 来访问浏览器资源吗
macaodoll
44 天前
自己搭个 HTTP 代理过滤流量?与浏览器插件有何区别?如果说访问 HTTP 请求,这块有现成的东西可以用,而且比你这套方便成熟
sofukwird
44 天前
@coinbase 就是用来过 cloudflare 首次验证的
coinbase
44 天前
@sofukwird 悟了,等会儿试试,能过 cloudflare 就是牛逼
iyiluo
44 天前
浏览器爬虫效率很低吧,免去了解密,但是效率是真低啊,只能爬小批量的数据
godleon
44 天前
演示视频里的电脑系统 ui 是什么
sofukwird
44 天前
@godleon Debian 12 - KDE Plasma 5.27.5
Jesmora
44 天前
啊这,一个好点的 IP 开个 tun 也能过 cf 啊,再不济 py 库有个过 cf 的啊
RangerWolf
44 天前
@Jesmora py 哪个库能过 CF ?
LevineChen
44 天前
没明白, chromium 本身不就提供远程访问的接口吗? 你这个绕了一圈是解决了什么特别的问题吗
0o0O0o0O0o
44 天前
如果重点是浏览器与 VPN ,https://github.com/tailscale/tailscale/issues/3157 https://twitter.com/bradfitz/status/1451423386777751561 更酷更方便,是更应该研究的方向

如果重点是过 cloudflare ,实际上你的设计中主要是借用 IP ,有太多方式可以将一台 Linux 电脑的 IP 共享给远程的应用程序使用,同样不需要 root 权限

如果重点是方便应用程序自动化控制浏览器,容器与 selenium puppeteer playwright 更优雅也有更繁荣的生态,例如 https://github.com/FlareSolverr/FlareSolverr
jones2000
44 天前
”进化“ 不应该是什么配置都不用设,自适应最佳配置, 直接就能用。
james122333
44 天前
firefox 有 marionette
sofukwird
44 天前
@0o0O0o0O0o
1. 浏览器与 VPN ,是的这很酷,我实现了
2. 不是通过借 IP 的方式过 cloudflare ,而是接管通过了真人验证的浏览器页面来过
3. 这个演示的重点是通过 http proxy 和应用程序集成,不依赖 puppeteer (这点蛮难解释,过段时间我把一个项目改造后开源就更清楚这是怎么做的
ll5270
44 天前
没看明白用途是啥
trigged
44 天前
基于 devtools-protocol ?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1028977

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX