阮一峰的文章有哪些常见性错误

比如《字符编码笔记： ASCII ， Unicode 和 UTF-8 》是阮老师 10 年前写的一篇关于字符编码的科普文章，现在用 Google 搜关键字该文章依然名列前茅，可见他的文章有多大影响力，但里面的内容是否正确是值得商榷的事。

中文维基百科对 Unicode 的解释也是让人一头雾水，摸不着头脑。看看阮老师怎么说：

可以想象，如果有一种编码，将世界上所有的符号都纳入其中。每一个符号都给予一个独一无二的编码，那么乱码问题就会消失。这就是 Unicode ，就像它的名字都表示的，这是一种所有符号的编码。

这句话读起来很拗口，有三个地方出现了「编码」二字。不知阮老师对「编码」的理解是什么？但可以肯定的是这三个「编码」在这句话里面不是同一个意思。

「编码」作动词使用时就是把一个字符（严格一点说是字符在字符集中的编号 code point ）转换成一个字节序列，以便在网络传输或者存储到文本中。比如「好」在 Unicode 中的编号是 U+597d ，经过 UTF-8 编码后会转换成二进制序列是 '\xe5\xa5\xbd' 。作为名词使用时，就是指一种具体的编码实现方式，比如 ASCII 编码， GBK 编码， UTF-8 编码

其实 Unicode 是一个囊括了世界上所有字符的字符集，其中每一个字符都对应有唯一的编码值（ code point ），然而它并不是一种什么编码格式，仅仅是字符集而已。 Unicode 字符要存储要传输怎么办，它不管，可以用 UTF-8 、 UTF-16 。

再来看阮老师说 Unicode 的第二个问题：

第二个问题是，我们已经知道，英文字母只用一个字节表示就够了，如果 Unicode 统一规定，每个符号用三个或四个字节表示，那么每个英文字母前都必然有二到三个字节是 0 ，这对于存储来说是极大的浪费，文本文件的大小会因此大出二三倍，这是无法接受的。

Unicode 并没有统一规定每个符号用三个或者四个字节表示。 Unicode 只规定了每个字符对应到唯一的代码值（ code point ），代码值从 0000 ~ 10FFFF 共 1114112 个值，真正存储的时候需要多少个字节是由具体的编码格式决定的。比如：字符「 A 」用 UTF-8 的格式编码来存储就只占用 1 个字节，用 UTF-16 就占用 2 个字节，而用 UTF-32 存储就占用 4 个字节。

再看来看这张图：

阮老师对 Unicode 编码的解释是：

Unicode 编码指的是 UCS-2 编码方式，即直接用两个字节存入字符的 Unicode 码。这个选项用的 little endian 格式。

UCS-2 是什么鬼， UCS-2 是使用两个定长的字节来表示一个字符，而 UTF-16 是使用两个变长的字节，遇到两个字节没法表示时，会用 4 个字节来表示，因此 UTF-16 可以看作是在 UCS-2 的基础上扩展而来的。而 UTF-32 与 USC-4 是完全等价的。

之所以在 Windows 下有 Unicode 编码这样一种说法，其实是 Windows 的一种错误表示方法，它真正的编码类型是 UTF-16LE 编码。

他又说：

Unicode 规范中定义，每一个文件的最前面分别加入一个表示编码顺序的字符，这个字符的名字叫做"零宽度非换行空格"（ ZERO WIDTH NO-BREAK SPACE ），用 FEFF 表示。这正好是两个字节，而且 FF 比 FE 大 1 。

如果一个文本文件的头两个字节是 FE FF ，就表示该文件采用大头方式；如果头两个字节是 FF FE ，就表示该文件采用小头方式

这儿就错得更加离谱了，不想说了，直接原文链接 http://mp.weixin.qq.com/s?__biz=MjM5MzgyODQxMQ==&mid=2650366798&idx=1&sn=5db3b152c99ff96f7a477313cfb175e0&chksm=be9cd81a89eb510c1d22091d89df648ab689a01fd77ebd4361567dd7ec238e754c3d5f10715c&mpshare=1&scene=23&srcid=0227ViQqcIpvWmVwkOiYxyxT#rd

williamx

2017-02-27 23:46:01 +08:00

Unicode 这块是比较难介绍的，因为现实中，这块已经是比较混乱了——当然，计算机相关行业的名词一向都是比较混乱的。

在我的理解， Unicode 是一个标准， UTF-8 等是这个标准的实现，这个很简单，很清晰。

然后在某些不那么严格的环境下，不需要明确指出到底是哪一种编码的情况下，大家用 “ Unicode 编码”这个说法来表示实现。这其实也是很好理解的，没有错误。

可是第一个混乱出现了，“ Unicode ” 这个单词在实际使用中没有被单纯的认为是一个标准的名字，它还被用于其他的地方，比如阮文中的“ Unicode 只是一个符号集”，比如其他文章中出现的“ Unicode 就是上文中提到的编码字符集”，还有其他很多的说法，直接让人搞不清楚 Unicode 到底是什么，连原本没有问题的“ Unicode 编码”这个说法也模糊起来了。

其次，某些软件商出于各种目的，比如没完全理解这些概念，比如为了对普通用户更友好，比如照抄其他软件的设定等等原因，又在他们的软件中用了“ Unicode 编码”这个东西。悲哀的是很快他们就发现了“ Unicode 编码”这个说法的局限性，不得不又引进了更具体的 UTF-8 ， UTF-16 这样的设置，好像 “ Unicode 编码”和 UTF-8 是平级的，于是这就更乱了。

于此同时，某些软件又把字符编码和文件格式搞在了一起，在文件的开头加了两个字节，当然它们也有苦衷，但是这尼玛直接导致其他一些软件硬生生在文本的开头多了两个不可见字符。

再加上另一个组织的 UCS 标准，再加上后来 UCS 和 Unicode 又合并了，直接导致了不学历史的人是搞不懂这些概念的。

至于阮的这篇文章，我同意你的看法，严格来说，确实有很多的错误——当然，严格来说，我上面写的这些也是有很多错误的——这毕竟不是论文，并不需要每个表述都去查证。