字符集和字符编码

常用字符集 & 编码

知道了字符、字符集及字符编码的基本概念，哪到底都有什么字符集及其编码规则呢 ❓

ASCII

ASCII（American Standard Code for Information Interchange，美国信息交换标准代码），是基于拉丁字母的一套电脑编码系统，主要用于显示现代英语（ASCII）和其他西欧语言 (EASCII，基于 ASCII 的扩展)。它由 ANSI（American National Standard Insitute，美国国家标准学会）制定的，是一种标准的 单字节字符编码方案 。

:: 好吧，还是缩写好用 😅……

单字节？1 个字节包含 8 位，也就是最多编码 256 （2^8）个字符喽。事实上，基础的 ASCII 只使用了 7 位，共 128 (2^7) 个字符，后续的 EASCII 扩展为了表示更多欧洲常用字符，才使用了第 8 位。

下图为基础版的 ASCII ：

![[assets/Pasted image 20230526090610.png]]

GB* 系

256 种表示？在汉字面前微不足道！不够用啊！！！

其实对于汉字的个数并没有个准确的数字，不完全统计汉字大约有十万个左右。根据 1988 年颁布的《现代汉语常用字表》，在我们日常生活中常用的汉字有 2500 个，次常用的汉字有 1000 个。

一个字节不够用？那就再加一个，65536（2^16 = 65536）种表示，勉强基本够用了……

前后经历了，GB2312 → GBK → GB18030 ，具体细节请自行查阅哦。你可能还见过 Big5 ，它是繁体中文常用的汉字字符标准。

GBK 并非国标，是微软搞出来的在 GB13000（国标过渡版）基础上扩展的（编码方式不同，emm…），最初实现于 Windows95 简体中文版。

PS：最新的中文字符集国标版本是 2022 年 7 月发布、2023 年 8 月 1 日起实施的 GB18030-2022 。

Unicode

全世界有上百种语言，各国有各国的标准，会冲突的！！！多语言混合的文本中，就成了“一锅粥”，乱码了……

![[assets/Pasted image 20230526090622.png|400]]

有没有一种字符集，收录了世界上所有的字符，统一编码呢 ❓ 有，Unicode ！

Unicode 编码系统为表达任意语言的任意字符而设计，它使用 4 字节数来表达每个字母、符号，或者表意文字。

4 个字节，4,294,967,296 （2^32 = 4,294,967,296）种表示，遇到外星人 📡 也够用了……

UTF-32 就是用 4 个字节，UTF-16 用的是 2 个字节，那 ~~UTF-8 就是 1 个字节了？~~ 不，UTF-8 是变长的（可变长度字符编码）。

![[assets/Pasted image 20230526090636.png|400]]

就左边这们大佬（肯·汤普森）搞出来的，他还做了 B 语言，基于 B 语言的 Unix ，C 语言，后又用 C 语言重新编写了 Unix ，现在又搞了个 Golang …… 右边这位好基友（丹尼斯·里奇）也是个神，Unix 和 C 语言的共同创始人。

:: 谢祖师爷……歇歇吧，卷不动了…… 😱

为什么我们需要 UTF-8 呢？如果用 UTF-16（最常用的 Unicode 标准），如果你写的都全部是英文的话，使用它编码就需要多出一倍的存储空间，在存储和传输上就十分不划算。

硬盘不贵，带宽贵啊！

本着节约的精神，可变长编码的 UTF-8 诞生了，它把一个 Unicode 字符根据不同的字符大小编码成 1~6 个字节，常用的英文字母被编码成 1 个字节（ASCII 的超集），汉字通常是 3 个字节，只有很生僻的字符才会被编码成 4~6 个字节。

实际上，现在计算机系统通用的字符编码工作方式：在计算机内存中，统一使用 Unicode 编码（UTF-16），当需要保存到硬盘或者需要传输的时候，就转换为 UTF-8 编码。

用记事本编辑的时候，从文件读取的 UTF-8 字符被转换为 Unicode 字符到内存里，编辑完成后，保存的时候再把 Unicode 转换为 UTF-8 保存到文件：

![[assets/Pasted image 20230526090654.png|232]] ![[assets/Pasted image 20230526090704.png|242]]

浏览网页的时候，服务器会把动态生成的 Unicode 内容转换为 UTF-8 再传输到浏览器。

互联网工程工作小组（IETF）要求所有互联网协议都必须支持 UTF-8 编码。

UTF-8 的实现原理

上文，我们知道 UTF-8 是可变长度编码，那么在解码时，如何知道当前字符占用几个字节呢？通过解析第一个字节获取信息。

1 个字节

如果第一个字节的最高位是 0 ，那么表示当前字符占一个字节，如下：

![[assets/Pasted image 20230526090742.png|300]]

这里也可以看出 UTF-8 是完全兼容 ASCII 码的，因为 ASCII 码的最高位也是 0 。

2 个字节

如果第一个字节的最高位是 110 ，那么表示这个字符占 2 个字节，第二个字节的最高 2 位是 10 ，如下：

![[assets/Pasted image 20230526090757.png|550]]

蓝色部分的数字组合在一起，就是实际的码位值。假如，要表示的字符，其码位值为 413 （对应填制为 00110011101 ），其表示就如下：

![[assets/Pasted image 20230526090817.png|550]]

3 个字节

如果第一个字节的最高位是 1110，那么第 2 和第 3 个字节的最高位是 10 ，如下：

![[assets/Pasted image 20230526090831.png|550]]

4 个字节

原理同上，只是第一个字节的最高位是 11110 ，如下：

![[assets/Pasted image 20230526090843.png|525]]

6 个字节

![[assets/Pasted image 20230526090857.png|525]]

不同字节对应的码位范围如下图，左侧 Bits 栏表示用于表示码位的 bit 数，如 4 个字节，其中有 21 位用于表示码位，即上图中的蓝色部分。

![[assets/Pasted image 20230526090908.png]]

不难看出，UTF-8 的产生是循序渐进的，其拥有很高的灵活性，而且可以进行扩展，能够表示的字符范围很大。

中文字符的 Unicode 分布

中文字符在 Unicode 中的分布范围较广，主要集中在以下几个区域：

类别	范围	描述	示例
基本汉字（常用字）	`\u4E00` 到 `\u9FFF`	包含了大部分常用的中文字符	`"一"` (`\u4E00`), `"龟"` (`\u9F9F`)
扩展汉字（补充字）	`\u3400` 到 `\u4DBF`	包含了一些不常用的汉字或古汉字	`"㐀"` (`\u3400`), `"䶵"` (`\u4DBF`)
扩展汉字（扩展A区）	`\u20000` 到 `\u2A6DF`	包含了更多的罕见汉字	`"𠀀"` (`\u20000`), `"𪚠"` (`\u2A6DF`)
扩展汉字（扩展B区）	`\u2A700` 到 `\u2B73F`	包含了更多的罕见汉字和古汉字	`"𪜀"` (`\u2A700`), `"𫝀"` (`\u2B73F`)
扩展汉字（扩展C区）	`\u2B740` 到 `\u2B81F`	包含了更多的罕见汉字和古汉字	`"𫝁"` (`\u2B740`), `"𫠠"` (`\u2B81F`)
扩展汉字（扩展D区）	`\u2B820` 到 `\u2CEAF`	包含了更多的罕见汉字和古汉字	`"𫠡"` (`\u2B820`), `"𬺯"` (`\u2CEAF`)
扩展汉字（扩展E区）	`\u2CEB0` 到 `\u2EBEF`	包含了更多的罕见汉字和古汉字	`"𬺰"` (`\u2CEB0`), `"𮯠"` (`\u2EBEF`)
扩展汉字（扩展F区）	`\u2CEB0` 到 `\u2EBEF`	包含了更多的罕见汉字和古汉字	`"𬺰"` (`\u2CEB0`), `"𮯠"` (`\u2EBEF`)
兼容汉字	`\uF900` 到 `\uFAFF`	包含了一些兼容汉字，通常用于与其他字符集（如 GBK）的兼容	`"豈"` (`\uF900`), `"﫿"` (`\uFAFF`)
其他汉字	`\u3007`, `\u3005`, `\u3006`	包含了一些特殊的汉字或符号	`"〇"` (`\u3007`), `"々"` (`\u3005`)

如果需要判断一个字符是否为中文字符，可以检查其 Unicode 编码是否在上述范围内。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11


def is_chinese_char(char):
    code = ord(char)
    return (0x4E00 <= code <= 0x9FFF) or \
           (0x3400 <= code <= 0x4DBF) or \
           (0x20000 <= code <= 0x2A6DF) or \
           (0x2A700 <= code <= 0x2B73F) or \
           (0xF900 <= code <= 0xFAFF)

# 测试
print(is_chinese_char('中'))  # True
print(is_chinese_char('A'))   # False

对于单个字符的编码，Python提供了 ord() 函数获取字符的整数表示，chr() 函数把编码转换为对应的字符。

🪧释义：

ord ➭ Ordinal 序数，表示字符在 Unicode 编码中的序号（即编码值）；
chr ➭ Character 字符，表示根据 Unicode 编码值返回对应的字符。

结语

一切都是在发展的，一切都是在改善的，有时候，只要一点奇思妙想，就会让世界变得更加美好。