各位如何解决文件管理问题?关于分类、去重、归档、快照、321 备份、分享、反向分享?

2023-04-15 00:04:25 +08:00
 Licsber

背景

想找一个文件找了十分钟终于找到!于是很气愤,准备整理、梳理一下。
初步排查了下目前设备里的所有文件,发现自己的文件管理做的可以说是非常混乱,什么规则都有!

大概根据不同文件夹的需求划分:

  1. 是否具有时效性?即一次性文件,过了一段时间可能只会因为比较仓鼠还会留着的;
  2. 是否具有重要性?即丢了很心疼的,需要符合 321 备份原则,即 3 份副本、2 种介质、1 个异地容灾;
  3. 是否具有时序性?即可以按时间序归档的,如摄影素材;
  4. 是否具有去重要求?即该文件夹内存在大量重复元素,如修改过 N 版的 PPT ;
  5. 是否可以对外共享?即该文件夹应该可以让别人直接拿 U 盘来拷,无需检查文件夹内容是否含有私人东西;
  6. 是否是容易获取的网络资源?即系统镜像、软件离线安装包等不值得 321 备份的文件,但又很大;
  7. 是否可以局域网共享?即影视资源文件夹等,可以直接在家里公开的;
  8. 是否包含少量大文件需要引用的情况?如某培训文件夹,会放报名材料、笔记 但同文件夹放网课录屏就太大了,不好备份,且做全量备份等时候没必要把视频多备份好几份;
  9. 是否会包含大量增量?即有打散需求,如论坛资源收集,会有大量子文件夹,需要按某规律打散以供缩短该目录索引速度和查找;
  10. 是否需要快速 /随机访问?即对存储介质有要求,如大量小文件需求 ssd ,而不是 hdd ;
  11. 是否是冷数据?即上传到云端也无所谓,取回时间可以接受;
  12. 是否需要多版本 /快照?即基本的数据保护和回档;
  13. 是否需要多设备同步?即 Resilio Sync 等软件同步;

存储地点的特性如下:

  1. unraid 机械阵列:写入速度极慢( 30MB/s )但自动获得该存储盘的读取性能和 1 块盘的冗余保护,读取速度基本相当于单机械盘读取;
  2. unraid 机械 RAID0:仅用作 pt 下载;
  3. unraid 机械 16T 单盘:用作数据中转;
  4. qnap RAID10:读写速度适中,自带快照功能,且仅在有变化时自动快照;
  5. truenas MIRROR:开启去重,用于个人改来改去的文件和项目储存 自带压缩;
  6. truenas 单盘:自带压缩;

又因为我做了两地三中心的同步 /备份策略 还用了软件辅助

  1. qnap 在老家 四盘 raid10 ,50M 外网 ipv4 ,目前主要用于个人照片、媒体类存储,和家人共享影视资源;
  2. unraid 在家里 9 盘 2.5G 本地访问 100M 外网 ipv6 ;
  3. truenas 在公司 双盘 mirror 2.5G 本地访问 50M 外网 ipv4 ;
  4. 腾讯云轻量北京 4C4G8M + 1TB 外置云盘(活动薅的);
  5. 每一台都能独立放下我个人的所有文件(除了腾讯云);
  6. 115 会员 100+T 容量,用于秒下种子,如 Manjaro 系统镜像就挺方便的秒下;
  7. cloudreve pro 用于管理 onedrive 分享;
  8. 天翼云盘会员 用于大文件分享,优点是会员费便宜,等于白送;
  9. 夸克云盘会员 用于监控视频加密储存,优点是网页端可以上传大文件;
  10. kodexplorer 用于管理本地文件,或者反向分享,即上传到我本地;
  11. gitea 用于管理代码仓库;
  12. dokuwiki 用于管理配置文件或笔记;
  13. seaweedfs 用于存储大量小文件,如爬虫爬取的东西;
  14. minio 用于应用往里存些东西,本地文件形式方便通过其他软件形式拿;

大概排查了下目前还合理的安排:

  1. O 镜像软件:编号存储系统镜像、常用软件,如 Win 镜像、华为 ensp 软件等;
  2. thumb:存放 pt 下载所有资源的缩略图,按 pt 种子号的最后一个数字建子文件夹 如 thumb/0/456790 不然单一文件夹子文件夹太多;
  3. M 多媒体:编号存放个人拍摄的图片、视频素材、网课录屏、会议录音;
  4. d:下载文件夹 也用作文件中转站,存放所有尚未分类的文件夹;
  5. capture:监控文件夹 存储时间序的监控视频 仅本地一份 云端加密一份 不做额外复制;
  6. L 分享:按编号整理的分享文件夹,随意拷贝或者不加密传到云端分享;
  7. docker:备份容器文件,如 mongodb 、postgresql ;
  8. VM:备份虚拟机整机;
  9. 个人:个人文件、如学校相关材料;
  10. 工作:工作相关材料;
  11. 生活:业余爱好、如业余无线电、3D 打印等;
  12. device:某一设备的全量备份,用于随时恢复出厂设置然后 cp 过去;
  13. bilibili:存放某些视频的完整下载和字幕、弹幕等信息;
  14. Archive:存放 Readonly 的一些文件夹,或者过段时间就可以转为云端备份的文件夹,这个最难定义;

但是会遇到的情况如下:

  1. 分类并不正交,如按照论文、专利、标准、竞赛、项目划分的话,项目里的论文就不能放在论文文件夹里吗,以后寻找的时候又找不到;
  2. 同一份文件到处都是,可能还有不同的版本,如省大创立项申报书同时出现在开题和中期和结题文件夹里,中间还经历过变动,又比如客户解决方案 PPT-V1 、V2 、V2 已交流带注释、V3 、VXX 最终版转 pdf 已发客户;
  3. 让别人给我传文件的时候,kodexplorer 好像不太安全,因为要给一个公用账号给别人,并且好像有漏洞能非授权访问其他文件;
  4. cloudreve pro 部署在腾讯云,文件走本地带宽低,但速度稳定,走 onedrive 带宽随机,但不从我服务器走流量(长时间走这种文件下载流量会占用我正常应用的带宽);
  5. 备份需求每次都在本地变出原始文件+加密文件。造成双倍占用,直到传到云端才能删除,需求一个 overlay 方案,希望可以直接挂在未加密文件夹的加密挂载点,直传云端;
  6. 某些全量备份恢复的时候提示 openssl 默认的 hash 算法已经从 md5 改成 sha256 了,旧有纯云端加密备份还要重新下载下来解压备份,希望有一个透明的代理能自动加解密,在尝试用阿里云盘小白羊改;
  7. 自己做了一套校验工具,可以根据多种 hash 判断文件是否完整,并且支援各类网盘的秒传,如百度、115 、夸克,但是分享文件的时候给秒传链接还是太超前了,很多人不会用油猴;
  8. 同步需求目前使用 Resilio Sync ,没买按需同步,感觉想换 Seafile 试试,不知道能不能更优雅的多设备同步文件;

大家都是怎么解决这些需求(进行文件分类整理存放)的呢?
目前我个人文件大概 4TB 左右 很少访问的文件大概 20TB 总阵列大小 200TB 左右 云端总空间 200TB 左右
影视资源 100TB 左右 大都可以扔 纯粹是因为硬盘比较大还没扔

2662 次点击
所在节点    问与答
21 条回复
Licsber
39 天前
@ellermister #20 目前检索效率还算可以

按照类别/获取途径分类 然后不便分类的东西全按照时间序放着
找的时候基本能命中第一个分类 然后事件可以命中后者
比如 某某采购项目 就会放在
架构角色/部门名称/采购/2024/240101-XXX 项目采购/Timeline/240102-立项系统信息
这里 然后就比较好搜索

兜底途径是 find . -name '*'
再兜底途径是 QNAP 自带的 Qsirch

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/932659

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX