【2017年整理】常用字符集介绍和编码转换原理

资源描述

《【2017年整理】常用字符集介绍和编码转换原理》由会员分享，可在线阅读，更多相关《【2017年整理】常用字符集介绍和编码转换原理（7页珍藏版）》请在金锄头文库上搜索。

1、常用字符集介绍和编码转换原理目录1. GB2312 编码介绍 .11.1 基本信息 .11.2 GB 标准 .11.3 分区表示 .11.4 字节结构 .12. 通用字符集 UCS.22.1 定义 .22.2 概要 .22.3 实现级别 .22.4 与 UNICODE 的兼容关系 .23. unicode 编码介绍 .33.1 基本简介 .33.2 编码实现 .33.2.1 编码方式 .33.2.2 实现方式 .44. UTF-8 介绍 .44.1 基本介绍 .44.2 编码原理 .44. 转换原理 .61. GB2312 编码介绍1.1 基本信息信息交换用汉字编码字符集是由我国国家标准总局

2、1980 年发布，1981 年 5 月 1 日开始实施的一套国家汉字编码字符集标准，标准号是 GB 23121980。它是计算机可以识别的编码，适用于汉字处理、汉字通信等系统之间的信息交换。基本集共收入汉字 6763 个和非汉字图形字符 682 个。整个字符集分成 94个区，每区有 94 个位。每个区位上只有一个字符，因此可用所在的区和位来对汉字进行编码，称为区位码。这个码是唯一的，不会有重码字。把换算成十六进制的区位码加上 2020H，就得到国标码。国标码加上8080H，就得到常用的计算机机内码。1995 年又颁布了汉字编码扩展规范（GBK）。GBK 与 GB 23121980 国家标准

3、所对应的内码标准兼容，同时在字汇一级支持 ISO/IEC106461 和 GB 130001 的全部中、日、韩（CJK ）汉字，共计 20902字。信息交换用汉字编码字符集和汉字输入编码之间的关系是，根据不同的汉字输入方法，通过必要的设备向计算机输入汉字的编码，计算机接收之后，先转换成信息交换用汉字编码字符，这时计算机就可以识别并进行处理；汉字输出是先把机内码转成汉字编码，再发送到输出设备。1.2 GB 标准GB2312 或 GB2312-80 是一个简体中文字符集的中国国家标准，全称为信息交换用汉字编码字符集基本集，又称为 GB0，由中国国家标准总局发布，1981 年 5 月 1 日实施。

4、GB2312 编码通行于中国大陆；新加坡等地也采用此编码。中国大陆几乎所有的中文系统和国际化的软件都支持 GB2312。 GB2312 标准共收录 6763 个汉字，其中一级汉字 3755 个，二级汉字 3008 个；同时，GB2312 收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的 682 个全角字符。 GB2312 的出现，基本满足了汉字的计算机处理需要，它所收录的汉字已经覆盖中国大陆 99.75%的使用频率。对于人名、古汉语等方面出现的罕用字，GB2312 不能处理，这导致了后来 GBK 及 GB18030 汉字字符集的出现。1.3 分区表示GB 2312

5、中对所收汉字进行了“分区 ”处理，每区含有 94 个汉字/符号。这种表示方式也称为区位码。 01-09 区为特殊符号。 16-55 区为一级汉字，按拼音排序。 56-87 区为二级汉字，按部首/笔画排序。 10-15 区及 88-94 区则未有编码。举例来说，“啊” 字是 GB2312 之中的第一个汉字，它的区位码就是 1601。1.4 字节结构在使用 GB2312 的程序中，通常采用 EUC 储存方法，以便兼容于 ASCII。浏览器编码表上的“GB2312”，通常都是指“EUC-CN ”表示法。每个汉字及符号以两个字节来表示。第一个字节称为“高位字节” （也称“区字节）” ，第二个字节称

6、为“低位字节” （也称 “位字节 ”）。 “高位字节 ”使用了 0xA1-0xF7(把 01-87 区的区号加上 0xA0)，“低位字节”使用了 0xA1-0xFE(把 01-94 加上 0xA0)。由于一级汉字从 16 区起始，汉字区的 “高位字节”的范围是 0xB0-0xF7，“低位字节”的范围是0xA1-0xFE，占用的码位是 72*94=6768。其中有 5 个空位是 D7FA-D7FE。例如“ 啊”字在大多数程序中，会以两个字节，0xB0 （第一个字节） 0xA1（第二个字节）储存。区位码=区字节+位字节（与区位码对比：0xB0=0xA0+16,0xA1=0xA0+1）。2.

7、通用字符集 UCS2.1 定义通用字符集（Universal Character Set，UCS）是由 ISO 制定的 ISO 10646（或称 ISO/IEC 10646）标准所定义的字符编码方式，采用 4 字节编码。又称 Universal Multiple-Octet Coded Character Set，大陆译为通用多八位编码字符集，台湾译为广用多八位元编码字元集。 2.2 概要通用字符集是所有包括了其他字符集。它保证了与其他字符集的双向兼容，即，如果你将任何文本字符串翻译到 UCS 格式，然后再翻译回原编码，你不会丢失任何信息。UCS 包含了已知语言的所有字符。除了拉丁语、希腊语、

8、斯拉夫语、希伯来语、阿拉伯语、亚美尼亚语、乔治亚语，还包括中文、日文、韩文这样的象形文字，UCS 还包括大量的图形、印刷、数学、科学符号。ISO 10646 定义了一个 31 位的字符集。ISO 10646-1 标准第一次发表于 1993 年，现在的公开版本是ISO/IEC 10646-1:2000。ISO 10646-2 在 2001 年发表。UCS 不仅给每个字符分配一个代码，而且赋予了一个正式的名字。表示一个 UCS 或 Unicode 值的十六进制数通常在前面加上“U+”，例如“U+0041”代表字符“A”。 2.3 实现级别并不是所有的系统都需要支持像组合字符这样的的先进机制。因此 ISO 10646 指定了如下三种实现级别:级别 1：不支持组合字符和谚文字母字符。级别 2：类似于级别 1，但在某些文字中，允许一列固定的组合字符，因为如果没有最起码的几个组合字符，UCS 就不能完整地表达这些语言。级别 3：支持所有的通用字符集字符，如，可以在任意一个字符上加上一个箭头或一个鼻音化符号.2.4 与 UNICODE 的兼容关系通用字符集是与 UNICODE 同类的组织，UCS-2 和 UNICODE 兼容。位数：它有 UCS-2 和 UCS-4 两种格式，分别是 2 字节和 4 字节。范围

展开阅读全文