2023-05-26    2024-12-30    3177 字  7 分钟
OLs

i.e. Charset and Character Encoding

字符是什么?字母、汉字、标点符号、控制字符、假名……

计算机中储存的信息都是二进制数表示的,我们在屏幕上看到的英文、汉字等字符都是二进制转换之后的结果。按照何种规则将字符存储在计算机中,如 a 用什么表示,称为“编码”;反之,将存储在计算机中的二进制数解析显示出来,称为“解码”。

:: 可以这样说,人类可读的即为“解”,计算机可读的即为“编”。

严格来说,字符集和字符编码不是一个概念,字符集定义了字符和二进制的对应关系,为字符分配了唯一的编号,而字符编码规定了如何将字符的编号存储到计算机中。

:: 字符集是一张码表,它记录了字符和对应二进制一对一的映射关系。> 2024-12-05 12:02

也就是说,字符编码是依赖于字符集的,就像代码中的接口实现依赖于接口一样;一个字符集可以有多个编码实现,就像一个接口可以有多个实现类一样。如下图所示:

![[assets/Pasted image 20230526090550.png]]

为什么要严格区分字符集与字符编码这两个概念呢?

在早期,字符集与字符编码是一对一的(如 ASCII、GBK)。但随着时间的发展,出现了一对多的情形,即一种字符集可能有了多种编码实现。如上图所示,Unicode 字符集就有 UTF-8、UTF-16、UTF-32 多种编码方式。

如果你想要了解更多关于字符集及字符编码相关的历史,可以阅读 该文档 。

常用字符集 & 编码

知道了字符、字符集及字符编码的基本概念,哪到底都有什么字符集及其编码规则呢 ❓

ASCII

ASCII(American Standard Code for Information Interchange,美国信息交换标准代码),是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语(ASCII)和其他西欧语言 (EASCII,基于 ASCII 的扩展)。它由 ANSI(American National Standard Insitute,美国国家标准学会)制定的,是一种标准的 单字节字符编码方案 。

:: 好吧,还是缩写好用 😅……

单字节?1 个字节 包含 8 位,也就是最多编码 256 (2^8)个字符喽。事实上,基础的 ASCII 只使用了 7 位,共 128 (2^7) 个字符,后续的 EASCII 扩展为了表示更多欧洲常用字符,才使用了第 8 位。

下图为基础版的 ASCII :

![[assets/Pasted image 20230526090610.png]]

GB* 系

256 种表示?在汉字面前微不足道!不够用啊!!!

其实对于汉字的个数并没有个准确的数字,不完全统计汉字大约有十万个左右。根据 1988 年颁布的《现代汉语常用字表》,在我们日常生活中常用的汉字有 2500 个,次常用的汉字有 1000 个。

一个字节不够用?那就再加一个,65536(2^16 = 65536) 种表示,勉强基本够用了……

前后经历了,GB2312 → GBK → GB18030 ,具体细节请自行查阅哦。你可能还见过 Big5 ,它是繁体中文常用的汉字字符标准。

GBK 并非国标,是微软搞出来的在 GB13000(国标过渡版)基础上扩展的(编码方式不同,emm…),最初实现于 Windows95 简体中文版。

PS:最新的中文字符集国标版本是 2022 年 7 月发布、2023 年 8 月 1 日起实施的 GB18030-2022 。

Unicode

全世界有上百种语言,各国有各国的标准,会冲突的!!!多语言混合的文本中,就成了“一锅粥”,乱码了……

![[assets/Pasted image 20230526090622.png|400]]

有没有一种字符集,收录了世界上所有的字符,统一编码呢 ❓ 有,Unicode !

Unicode 编码系统为表达任意语言的任意字符而设计,它使用 4 字节数来表达每个字母、符号,或者表意文字。

4 个字节,4,294,967,296 (2^32 = 4,294,967,296) 种表示,遇到外星人 📡 也够用了……

UTF-32 就是用 4 个字节,UTF-16 用的是 2 个字节,那 UTF-8 就是 1 个字节了? 不,UTF-8 是变长的(可变长度字符编码)。

![[assets/Pasted image 20230526090636.png|400]]

就左边这们大佬(肯·汤普森)搞出来的,他还做了 B 语言,基于 B 语言的 Unix ,C 语言,后又用 C 语言重新编写了 Unix ,现在又搞了个 Golang …… 右边这位好基友(丹尼斯·里奇)也是个神,Unix 和 C 语言的共同创始人。

:: 谢祖师爷……歇歇吧,卷不动了…… 😱

为什么我们需要 UTF-8 呢?如果用 UTF-16(最常用的 Unicode 标准),如果你写的都全部是英文的话,使用它编码就需要多出一倍的存储空间,在存储和传输上就十分不划算。

硬盘不贵,带宽贵啊!

本着节约的精神,可变长编码的 UTF-8 诞生了,它把一个 Unicode 字符根据不同的字符大小编码成 1~6 个字节,常用的英文字母被编码成 1 个字节(ASCII 的超集),汉字通常是 3 个字节,只有很生僻的字符才会被编码成 4~6 个字节。

实际上,现在计算机系统通用的字符编码工作方式:在计算机内存中,统一使用 Unicode 编码(UTF-16),当需要保存到硬盘或者需要传输的时候,就转换为 UTF-8 编码。

用记事本编辑的时候,从文件读取的 UTF-8 字符被转换为 Unicode 字符到内存里,编辑完成后,保存的时候再把 Unicode 转换为 UTF-8 保存到文件:

![[assets/Pasted image 20230526090654.png|232]]  ![[assets/Pasted image 20230526090704.png|242]]

浏览网页的时候,服务器会把动态生成的 Unicode 内容转换为 UTF-8 再传输到浏览器。

互联网工程工作小组(IETF)要求所有互联网协议都必须支持 UTF-8 编码。

UTF-8 的实现原理

上文,我们知道 UTF-8 是可变长度编码,那么在解码时,如何知道当前字符占用几个字节呢?通过解析第一个字节获取信息。

1 个字节

如果第一个字节的最高位是 0 ,那么表示当前字符占一个字节,如下:

![[assets/Pasted image 20230526090742.png|300]]

这里也可以看出 UTF-8 是完全兼容 ASCII 码的,因为 ASCII 码的最高位也是 0 。

2 个字节

如果第一个字节的最高位是 110 ,那么表示这个字符占 2 个字节,第二个字节的最高 2 位是 10 ,如下:

![[assets/Pasted image 20230526090757.png|550]]

蓝色部分的数字组合在一起,就是实际的码位值。假如,要表示的字符,其码位值为 413 (对应填制为 00110011101 ),其表示就如下:

![[assets/Pasted image 20230526090817.png|550]]

3 个字节

如果第一个字节的最高位是 1110,那么第 2 和第 3 个字节的最高位是 10 ,如下:

![[assets/Pasted image 20230526090831.png|550]]

4 个字节

原理同上,只是第一个字节的最高位是 11110 ,如下 :

![[assets/Pasted image 20230526090843.png|525]]

6 个字节

![[assets/Pasted image 20230526090857.png|525]]

不同字节对应的码位范围如下图,左侧 Bits 栏表示用于表示码位的 bit 数,如 4 个字节,其中有 21 位用于表示码位,即上图中的蓝色部分 。

![[assets/Pasted image 20230526090908.png]]

不难看出,UTF-8 的产生是循序渐进的, 其拥有很高的灵活性,而且可以进行扩展,能够表示的字符范围很大。

中文字符的 Unicode 分布

中文字符在 Unicode 中的分布范围较广,主要集中在以下几个区域:

类别 范围 描述 示例
基本汉字(常用字) \u4E00 到 \u9FFF 包含了大部分常用的中文字符 "一" (\u4E00), "龟" (\u9F9F)
扩展汉字(补充字) \u3400 到 \u4DBF 包含了一些不常用的汉字或古汉字 "㐀" (\u3400), "䶵" (\u4DBF)
扩展汉字(扩展A区) \u20000 到 \u2A6DF 包含了更多的罕见汉字 "𠀀" (\u20000), "𪚠" (\u2A6DF)
扩展汉字(扩展B区) \u2A700 到 \u2B73F 包含了更多的罕见汉字和古汉字 "𪜀" (\u2A700), "𫝀" (\u2B73F)
扩展汉字(扩展C区) \u2B740 到 \u2B81F 包含了更多的罕见汉字和古汉字 "𫝁" (\u2B740), "𫠠" (\u2B81F)
扩展汉字(扩展D区) \u2B820 到 \u2CEAF 包含了更多的罕见汉字和古汉字 "𫠡" (\u2B820), "𬺯" (\u2CEAF)
扩展汉字(扩展E区) \u2CEB0 到 \u2EBEF 包含了更多的罕见汉字和古汉字 "𬺰" (\u2CEB0), "𮯠" (\u2EBEF)
扩展汉字(扩展F区) \u2CEB0 到 \u2EBEF 包含了更多的罕见汉字和古汉字 "𬺰" (\u2CEB0), "𮯠" (\u2EBEF)
兼容汉字 \uF900 到 \uFAFF 包含了一些兼容汉字,通常用于与其他字符集(如 GBK)的兼容 "豈" (\uF900), "﫿" (\uFAFF)
其他汉字 \u3007\u3005\u3006 包含了一些特殊的汉字或符号 "〇" (\u3007), "々" (\u3005)

如果需要判断一个字符是否为中文字符,可以检查其 Unicode 编码是否在上述范围内。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
def is_chinese_char(char):
    code = ord(char)
    return (0x4E00 <= code <= 0x9FFF) or \
           (0x3400 <= code <= 0x4DBF) or \
           (0x20000 <= code <= 0x2A6DF) or \
           (0x2A700 <= code <= 0x2B73F) or \
           (0xF900 <= code <= 0xFAFF)

# 测试
print(is_chinese_char('中'))  # True
print(is_chinese_char('A'))   # False

对于单个字符的编码,Python提供了 ord() 函数获取字符的整数表示,chr() 函数把编码转换为对应的字符。

🪧释义:

  • ord ➭ Ordinal 序数,表示字符在 Unicode 编码中的序号(即编码值);
  • chr ➭ Character 字符,表示根据 Unicode 编码值返回对应的字符。

结语

一切都是在发展的,一切都是在改善的,有时候,只要一点奇思妙想,就会让世界变得更加美好。

参考链接