有没有人研究过在抽样数据文本中进行数据隐写？

简化设定

比如给出一个 100x1024 字节长度的字符串

已知其中每 100 个字节中的前 96 个字节为有效数据负荷，最后 4 个字节为预留可以随意使用无数据负荷的字节。

我们需要在借助此无负荷部分，此 100k 字节长的字符串中，混入一个“20 字节长的隐匿数据”

并同时

1 、在数据以 100 字节为边界，拆分为 1024 组百长度的字符串；且取出 1024 组中的任意多组后，能尽最大可能量地恢复出“20 字节长的隐匿数据”

2 、尽量减小被隐匿加入的数据，在组间的可简单文本观测重复性，减少隐匿数据的被定位发现的可能

3 、研究当预留字节数由 4 改为 2 时的算法影响；以及取出组数逐步减小时，对可恢复性的影响

这是数据隐写？但可能又进一步地涉及到数据抽样、有损的情况。在文本中的隐写，与常见的图像音频中的隐写术也有很大不同。

应该去看哪些方向的文章？

liuxu

2021-06-25 10:52:33 +08:00

。。。。

我来给楼主重新理一下需求。。

给定 100 字节空间，每 4 个字节为一组，将 20 字节分组随机存储到空间后，如何保证占用最小空间并顺序取出不可读，且随机取出部分数据后，根据存储算法能最大恢复这 20 字节源数据

改成 2 字节为一组存储，对比和 4 个字节为一组有什么区别

给出以上算法及解释

建议楼主去看看加密解密中的软件加壳混淆和脱壳技术

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/785678

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.