wget 是阅读软件项目文档的好帮手

2021-09-21 07:52:54 +08:00
 AndyAO

例如,想全面搜索.coverage,如果用谷歌的话,实际上效果并不好,只要带点符号就会出问题,更不用说使用正则或者布尔表达式搜索。

最好的办法就是将这些文档全部下载到本地,本来以为这会很麻烦,没想到 wget 自带这个功能,例如下载poetry的文档,用wget -r -np -nc -k -c 'http://python-poetry.org/docs'

对于很多没有自带 pdf 文档下载服务的项目很有用。

3745 次点击
所在节点    程序员
11 条回复
yuhangch
2021-09-21 11:26:12 +08:00
谢谢分享,内网机真挺需要的
thetbw
2021-09-21 15:51:46 +08:00
浏览器上 ctrl+s 保存网页这种?
AndyAO
2021-09-21 17:15:35 +08:00
(⊙o⊙)…
thetbw 这位老兄看来是将俺当做傻子了,自己试试不就知道了
delectate
2021-09-21 17:57:16 +08:00
楼主的方法,具有特异性,也就是说只有纯文本且易被 wget 爬取的网站才能这样操作。

如果网站目录很深,或者很庞大,或者有很多图,本地要爆炸,不如写个爬虫爬下来存数据库。
sleeepyy
2021-09-21 18:23:09 +08:00
@delectate 楼主限定的 “阅读软件项目文档” 的场景,应该来说问题还是不大的
stephCurry
2021-09-21 19:29:04 +08:00
直接 `wget -r 'url'` 不行吗?
youxiachai
2021-09-21 22:31:01 +08:00
wget 不是有镜像下载功能吗。。
kkocdko
2021-09-21 23:02:04 +08:00
@delectate 确实,这种爬取方式对很多网站,特别是花里胡哨的前端框架文档都不适用。
我习惯于从 GitHub 上直接获取 Docs 文档,比如这样: https://github.com/vuejs/docs-next-zh-cn/tree/gh-pages
kkocdko
2021-09-21 23:03:46 +08:00
@kkocdko 直链: https://github.com/vuejs/docs-next-zh-cn/archive/refs/heads/master.zip
这样就能直接下载构建好的文档了。不过这显然也不是通用的方案。。。
learningman
2021-09-21 23:13:08 +08:00
@kkocdko 你下 master 还得 npm 编译吧。。。
kkocdko
2021-09-22 01:02:10 +08:00
@learningman 诶,这似乎是 GitHub 的 Bug ?切换分支后下载按钮依然是 master 的链接?
更正: https://github.com/vuejs/docs-next-zh-cn/archive/refs/heads/gh-pages.zip

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/803132

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX