Unicode九个「鼠」,有六个是行书草书,汉字编码专家这样干,外国同行知道吗?社区知道吗?

发布时间:
2024-08-19 02:09
阅读量:
38

外国同行也是这么做的。符号 "&" 足足有 9 个额外的变体[1]

﹠&⅋ 如果显示的不是九个,说明字体不全。

Ampersand 的 Unicode 变体(截图) - 维基百科

至少社区知道 "&" 符号有10种,还专门把它写到了维基百科里面。


我同意 Unicode 在“字符变体”的处理方面很有问题,但这个问题肯定不是中国人带来的。


更新(跑题):

按编码理论,最常用的字符应该用最短的编码。U+0026在UTF-8当中只占用1字节,考虑到&“还算常用”(而且继承自ASCII),当然无可厚非。但考虑到它的其它9个变体以及这9个变体的使用频率,这9个变体显然占用了过多码位。

我们不妨假设这9个变体都是必要的——这些变体必须写在Unicode里面,而不是通过设计字体或修改字号来实现。那我们为何不设计几个修饰符呢?不难发现,要实现上面9个变体,只需要增加7个修饰符:

  1. 全角修饰符
  2. 小字符修饰符
  3. 反转修饰符
  4. 花体修饰符1
  5. 花体修饰符2
  6. 花体修饰符3
  7. 加粗修饰符

这样,通过在字符前后加修饰符,我们将9个字符压成了7个修饰符。在编码这9个少见的字符时,我们会用“修饰符+字符”的形式来使用较长的编码。从而使得较短的编码可以由较常用的符号占用。

而且,这些修饰符也可以用于其它字符。以 "@" 字符的变体为例[2]

commercial at 的 Unicode 变体(截图) - 维基百科

又何必占用这么多码位呢?

END