浏览器爬虫再进化

2024-04-02 08:17:48 +08:00
 sofukwird

通过 http proxy server 暴露浏览器资源, 基于 webrtc, 是直连, 无需二次中转

具体请看视频演示: https://youtu.be/czWW5xlfcS8

当前测试版目标用户为使用 WireGuard 的 linux 用户 核心源码暂未公开, 建议在虚拟机中尝试. xhe-vpn 目前仅支持 linux(windows 端需求反响强烈的话速度肝出 windows 端)

git 仓库: https://github.com/remoon-net/xhe-webvpn 社区讨论: https://github.com/remoon-net/xhe-webvpn/discussions 问题反馈: https://github.com/remoon-net/xhe-webvpn/issues


相比上次的版本去除了中心化, 虽然导致了配置更加繁琐, 但独立部署更简单了

10671 次点击
所在节点    程序员
51 条回复
march1993
2024-04-02 19:37:57 +08:00
这玩意儿和 https://github.com/chromedp/chromedp 有什么优势。。
march1993
2024-04-02 19:40:09 +08:00
@march1993 chromedp 可以实现全自动/半自动爬虫,cookie 等行为也可以持久化,配合自己写个 proxy 还可以秒切代理。
gongquanlin
2024-04-02 20:46:57 +08:00
肉鸡的浏览器挂上这个脚本暴露出 http proxy server ;
hacker 通过这个 proxy 直接拿着 cookie 请求,相当于实现了 csrf🤣

既然都注入了,直接加上 eval 远程执行代码,不更好玩吗
ignore
2024-04-03 08:58:49 +08:00
@sml2h3 #28 DrissionPage 真不错
Jesmora
2024-04-03 10:09:18 +08:00
fork3rt
2024-04-03 10:21:35 +08:00
@sml2h3 了解了 谢谢大佬
shermie
2024-04-03 14:19:05 +08:00
@sml2h3 又学到了一个新东西 感谢大佬
sofukwird
2024-04-05 16:50:25 +08:00
@0o0O0o0O0o 原有的老项目使用 http proxy 改造成功了

项目公开: https://github.com/remoon-cn/bbq

我总结出来的优势有以下:

http proxy 统一了接口地址, 不需要使用 chromdp 转来转去, 直接通过代理以用户身份访问接口

程序里也不用引入爬虫相关的库, 使得代码量大大精简
0o0O0o0O0o
2024-04-05 18:37:38 +08:00
> 使用这个方案,相比基于 webdriver/cdp 的方式,可以省去提取 cookies 、模拟登录的过程,通过人工在图形界面上操作一次即可

不这么认为,基于 webdriver/cdp 的方式一样可以让人工在图形界面介入,不要 headless 就可以
- https://github.com/go-rod/rod/blob/main/lib/examples/launch-managed/main.go#L27
- https://github.com/go-rod/rod/blob/main/lib/examples/use-rod-like-chrome-extension/main.go

> 相当于被注入的页面向外提供 http 代理,该代理会复用浏览器环境,也就继承了相关 cookies

cdp 方式注入一个 js 然后用别的语言暴露 API 不是更方便更强大吗?同样可以复用浏览器环境,同样可以暴露成 http proxy 。选择的库包装得够好就会让“程序里也不用引入爬虫相关的库, 使得代码量大大精简”没有太多说服力。

所以这个项目在我眼里定位到爬虫相关有点奇怪,但我对 OP 的浏览器中的 VPN ( /t/961694 ) 很感兴趣,我觉得 OP 也可以往 VPN 与浏览器结合的常规应用上考虑
james122333
2024-04-07 18:40:06 +08:00
@wuzzispacelake

安装完浏览器前几件事情就是关掉 webrtc
ashen114
79 天前
@0o0O0o0O0o 请教一下,因为 headless 体验上会比较友好,但有个问题是,headless ,遇到需要登录、验证码的情况,需要图形化界面操作,有什么方案推荐吗,除了 CDP (因为交互不太友好)

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1028977

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX