V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
AndyAO
V2EX  ›  程序员

wget 是阅读软件项目文档的好帮手

  •  4
     
  •   AndyAO · 2021-09-21 07:52:54 +08:00 · 3738 次点击
    这是一个创建于 941 天前的主题,其中的信息可能已经有所发展或是发生改变。

    例如,想全面搜索.coverage,如果用谷歌的话,实际上效果并不好,只要带点符号就会出问题,更不用说使用正则或者布尔表达式搜索。

    最好的办法就是将这些文档全部下载到本地,本来以为这会很麻烦,没想到 wget 自带这个功能,例如下载poetry的文档,用wget -r -np -nc -k -c 'http://python-poetry.org/docs'

    对于很多没有自带 pdf 文档下载服务的项目很有用。

    第 1 条附言  ·  2021-09-21 12:04:44 +08:00
    由于下载完成之后还需要进行转换,所以如果没有完全下载完,那么你会发现网页中的样式和图片好像都有些问题不过不用担心,全部完成之后这些问题都会解决。
    11 条回复    2021-09-22 01:02:10 +08:00
    yuhangch
        1
    yuhangch  
       2021-09-21 11:26:12 +08:00
    谢谢分享,内网机真挺需要的
    thetbw
        2
    thetbw  
       2021-09-21 15:51:46 +08:00
    浏览器上 ctrl+s 保存网页这种?
    AndyAO
        3
    AndyAO  
    OP
       2021-09-21 17:15:35 +08:00
    (⊙o⊙)…
    thetbw 这位老兄看来是将俺当做傻子了,自己试试不就知道了
    delectate
        4
    delectate  
       2021-09-21 17:57:16 +08:00
    楼主的方法,具有特异性,也就是说只有纯文本且易被 wget 爬取的网站才能这样操作。

    如果网站目录很深,或者很庞大,或者有很多图,本地要爆炸,不如写个爬虫爬下来存数据库。
    sleeepyy
        5
    sleeepyy  
       2021-09-21 18:23:09 +08:00
    @delectate 楼主限定的 “阅读软件项目文档” 的场景,应该来说问题还是不大的
    stephCurry
        6
    stephCurry  
       2021-09-21 19:29:04 +08:00
    直接 `wget -r 'url'` 不行吗?
    youxiachai
        7
    youxiachai  
       2021-09-21 22:31:01 +08:00
    wget 不是有镜像下载功能吗。。
    kkocdko
        8
    kkocdko  
       2021-09-21 23:02:04 +08:00
    @delectate 确实,这种爬取方式对很多网站,特别是花里胡哨的前端框架文档都不适用。
    我习惯于从 GitHub 上直接获取 Docs 文档,比如这样: https://github.com/vuejs/docs-next-zh-cn/tree/gh-pages
    kkocdko
        9
    kkocdko  
       2021-09-21 23:03:46 +08:00
    @kkocdko 直链: https://github.com/vuejs/docs-next-zh-cn/archive/refs/heads/master.zip
    这样就能直接下载构建好的文档了。不过这显然也不是通用的方案。。。
    learningman
        10
    learningman  
       2021-09-21 23:13:08 +08:00 via Android
    @kkocdko 你下 master 还得 npm 编译吧。。。
    kkocdko
        11
    kkocdko  
       2021-09-22 01:02:10 +08:00
    @learningman 诶,这似乎是 GitHub 的 Bug ?切换分支后下载按钮依然是 master 的链接?
    更正: https://github.com/vuejs/docs-next-zh-cn/archive/refs/heads/gh-pages.zip
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5315 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 39ms · UTC 07:54 · PVG 15:54 · LAX 00:54 · JFK 03:54
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.