关于无界面浏览 web、headless、har、模拟浏览器

2017-03-30 17:33:30 +08:00
 trys1

如何更好更轻量地在服务端获取 har (一个 URL 下所有元素的信息)?

我需要的: 例如: 输入: http://www.163.com 获得:该页面里所有元素,例如图片、 js 、 css 等的信息(包括 header 、 size 、 dns 时间、连接时间、下载时间等等)

试过的方案: phantomjs 缺点:没有 dns 时间和连接时间

chrome --headless --remote-debugging-port 缺点:太庞大了,安装包 40+MB ,还依赖一堆,全套起来接近百兆

我的服务端是对硬盘空间比较敏感的小型 linux 请问,有没有比这两个方案更好更轻量(程序文件尺寸)的其它方案?

3434 次点击
所在节点    程序员
10 条回复
Arrowing
2017-03-30 21:24:35 +08:00
webtestpage ?
Arrowing
2017-03-30 21:25:18 +08:00
打错了, 2333333
webpagetest
behappy
2017-03-30 21:25:28 +08:00
nightmare
knightdf
2017-03-30 21:46:22 +08:00
splash
trys1
2017-03-31 15:47:13 +08:00
@Arrowing 单单“ webpagetest_3.0.zip ”就要 48MB 了,部署这套方案应该要接近百兆以上的磁盘空间了吧? 还得需要安装 python 、 php?
trys1
2017-03-31 15:48:13 +08:00
@behappy 它仅仅依赖 node.js 吗? 还需要再安装别的东西吗? 它能获取到每个元素的 dns 时间 connect 时间吗?
trys1
2017-03-31 15:52:10 +08:00
@knightdf splash 这个方案还要安装 QT 库和 python 吗? 主要是 QT 库太庞大了
knightdf
2017-03-31 16:17:22 +08:00
@trys1 是的,但是他可以获取详细 har
knightdf
2017-03-31 16:18:05 +08:00
@trys1 但是你还可以直接用 docker ,不过看你具体要多小了
behappy
2017-03-31 22:52:54 +08:00
@trys1 sorry 没看清。这个还依赖 phantomjs

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/351532

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX