V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
layman3612
V2EX  ›  程序员

求推荐网页下载工具

  •  
  •   layman3612 · 2019-08-27 10:16:20 +08:00 · 3003 次点击
    这是一个创建于 829 天前的主题,其中的信息可能已经有所发展或是发生改变。

    大家有没有用过,可以把网站下载成本地文件,并可断网访问的工具。 试过一些,只能支持静态网站,都无法支持 js 生成的动态内容

    17 条回复    2019-09-04 20:41:15 +08:00
    lazyrm
        1
    lazyrm  
       2019-08-27 10:46:28 +08:00   ❤️ 1
    webcopy 要不要试试看?
    annielong
        2
    annielong  
       2019-08-27 11:49:03 +08:00
    以前这个叫离线网页浏览器,用 js 生成页面的这种用采集自己生成
    SuperMild
        3
    SuperMild  
       2019-08-27 15:08:46 +08:00
    如果只是单页可以用 SingleFileZ
    deco
        4
    deco  
       2019-08-27 17:31:16 +08:00
    ctrl+s ?
    GzhiYi
        5
    GzhiYi  
       2019-08-27 17:58:31 +08:00 via iPhone
    httarck
    chocolatesir
        6
    chocolatesir  
       2019-08-27 18:11:48 +08:00
    火车头
    iMusic
        7
    iMusic  
       2019-08-27 18:26:56 +08:00
    前几天写了个 node 工具,自己用随便写的就不献丑了。我用到了 puppeteer,通过`performance.getEntriesByType('resource').map(x => x.name)`拿到页面上的资源地址。
    helenhe
        8
    helenhe  
       2019-08-27 18:29:00 +08:00
    @deco 并不能,下午 down 了 CSDN 的网页,就是给你跳转到首页去
    wunonglin
        9
    wunonglin  
       2019-08-27 18:38:31 +08:00
    现在格局变了,不再是以前那种静态页了,现在基本都是各种 js 渲染,前端路由,前端路由守护,数据都是从 api 过来,页面相关签名验证之类的不通的话直接就跳首页或者 403 了,现在没有所谓的网页下载这个概念了的,非要的话我是建议你截图就行了
    ben1024
        10
    ben1024  
       2019-08-27 18:48:24 +08:00
    毛遂自荐 [Cornerstone]( https://github.com/MasterCloner/Cornerstone)
    支持同步 /异步渲染获取 JS 加载后的界面
    Buges
        11
    Buges  
       2019-08-27 18:49:06 +08:00 via Android
    建议直接 print 成 pdf 文件保存比较恰当。
    lc1450
        12
    lc1450  
       2019-08-27 19:22:11 +08:00
    @helenhe @deco 报存成 mhtml, chrome 默认没开需要开启一下(高版本好像又不一样了) 搞不懂 chrome 这波操作图什么
    luckrill
        13
    luckrill  
       2019-08-27 21:56:28 +08:00
    wget 我一直使用这个
    有特殊需求的,就自己开发
    nieccyyy
        14
    nieccyyy  
       2019-08-28 08:52:12 +08:00
    @helenhe csdn 有防镜像代码,会跳会首页是因为这货:onerror='setTimeout(function(){if(!/(csdn.net|iteye.com|baiducontent.com|googleusercontent.com|360webcache.com|sogoucdn.com|bingj.com|baidu.com)$/.test(window.location.hostname)){window.location.href="\x68\x74\x74\x70\x73\x3a\x2f\x2f\x77\x77\x77\x2e\x63\x73\x64\x6e\x2e\x6e\x65\x74"}},3000);
    arrow8899
        15
    arrow8899  
       2019-08-28 10:02:17 +08:00
    得看你的原始需求是什么,如果只是能查看页面的话,那么截图或 pdf 最方便;
    至于更复杂的,可以用 puppeteer 或 selenium 等工具,把渲染后的 html 页面、css、图片、字体、SVG 等保存下来,不过估计坑很多。
    alpenstock
        16
    alpenstock  
       2019-08-28 11:00:39 +08:00
    googlefans
        17
    googlefans  
       2019-09-04 20:41:15 +08:00
    关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2527 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 20ms · UTC 11:07 · PVG 19:07 · LAX 03:07 · JFK 06:07
    ♥ Do have faith in what you're doing.