第三节 其它信息的数字化表示,ASCII编码中文编码BCD编码图像编码声音编码多媒体编码,文字信息的数字表示,计算机也要处理大量文字信息,文字信息是由字符所组成,例如:英语中的26个字母,汉字等等这些字符数据要被计算机处理,就需要转换成数字信息,方法就是给每个字符编一个代码,并用二进制数字表示例如: A 用 0100 0001表示字符编码的种类,输入码:为输入某字符从键盘上按的一个键或一组键英文字符的输入码就是字符本身,输入字母C,直接按C键机内码:是字符在计算机内存储、处理时用的编码,输入码转换为机内码的工作由计算机自动完成字形码:供显示和打印用的,表征字符笔型和轮廓的编码字符编码的种类,机内码是字符在计算机中保存、处理、传输中使用的数字编码,是计算机中使用的主要的字符编码硬盘上的文件,就是使用机内码代表文字的如果要想互相通信而不造成混乱,就必须使用相同的编码规则1、ASCII编码,ASCII(American Standard Code for Information Interchange,美国标准信息交换码)是基于拉丁字母的一套电脑编码系统,它主要用于显示现代英语和其他西欧语言,是现今最通用的单字节编码系统,供不同计算机在相互通信时用作共同遵守的西文字符编码标准。
1、ASCII编码,美国标准信息交换码是由美国国家标准学会(American National Standard Institute , ANSI )制定的,标准的单字节字符编码方案起始于50年代后期,在1967年定案它最初是美国国家标准,已被国际标准化组织(International Organization for Standardization, ISO)定为国际标准,称为ISO 646标准1、ASCII编码,英文字符的机内码:由字符在ASCII码表内的位置决定标准ASCII采用七位二进制编码,例如: 空格(SP)的编码是:0100000B =20H = 32 数字符号0的编码是:0110000B = 30H = 48 大写字母A的编码是:1000001B = 41H = 65 小写字母a的编码是:1100001B = 61H = 97 编码也称ASCII码值,1、 ASCII编码,标准ASCII码常用字符有128个,编码从0到127每个字符在计算机中占一个字节,用低7位,最高位为0包括0~9十个数字,大小写英文字母及专用符号等95种可打印字符还包括33个控制字符1、 ASCII编码,1、 ASCII编码,扩展ASCII编码(EASCII),对ASCII编码进行扩充,把一些特殊符号编码到128-255,称为扩展ASCII编码。
字节最高位为1ISO/IEC 646,ISO/IEC 646是国际标准化组织(ISO)和国际电工委员会(IEC)1972年制订的标准它来自数个国家标准,最主要来自美国的 ASCII也是采用7位二进制数表示一个字符的编码ISO646 除了英语字母和数字部分各个国家都相同外,有些字母可按照实际需要,把ISO646进行修改,以定出该国的字符标准,所以有些ASCII中的字符没有包含在这些国家的ISO646标准中ISO8859系列,ISO8859,全称ISO/IEC 8859,是国际标准化组织(ISO)及国际电工委员会(IEC)联合制定的一系列8位字符集的标准可看作为不同的文字中的EASCII,它使用128-255的区域为不同文字定义了这种文字常用字符的编码包括:ISO8859-1定义了西欧语言的字符,ISO8859-2是中欧语言, ISO8859-3是南欧语言, ISO8859-4是北欧语言,ISO8859-5是斯拉夫语,ISO8859-6是阿拉伯语等16个标准0-127的编码与ASCII相同ISO8859系列,以上文字的编码方案主要是针对文字符号较少的语言,使用一个字节就可以为所有的文字符号进行编码,称为单字节编码方案,能够编码的字符的个数也基本限制在128个或256个之内,它们却没有办法将文字符号较多的语言进行编码,为了提供更多的编码空间,各个国家和地区开始使用两个字节作为本地字符的编码,为自己国家和地区的语言文字设计编码,例如:中文简体字符的GB2312,中文繁体的BIG5,日文的JIS等方案。
2、中文编码,计算机里处理汉字,也要对汉字进行编码汉字内码汉字输入码汉字字形码,2、中文编码,汉字内码:区位码:1980年,我国为6763个汉字和682个符号规定了编码,把它们分成94个区,每区可包含94个字符,每个字符的代码由2个字节组成,第一个字节指明它所在的区号,第二个字节指明它所在的区的位置号,称为区位码例如:啊 在16区第一位,则区位码为: 1001H,2、中文编码,汉字内码:国标码:是国家标准(GB2312-80)所规定的汉字的编码,实际是把区位码的区码和位码分别加上20H例如:啊 在16区第一位,则区位码为: 1001H,国标码则是:3021H2、中文编码,汉字内码:机内码(GB内码):是把国标码的高字节和低字节的最高位分别设置为1,相当于每个字节加上80H,主要是为了和ASCII码区分开例如:啊 在16区第一位,则区位码为: 1001H,国标码则是:3021H,机器内码就是:B0A1H2、中文编码,Big5,又称为大五码,是使用繁体中文社区中最常用的计算机汉字内码标准,共收录13060个汉字,Big5码普及于台湾、香港与澳门等繁体中文通行区Big5码也是采用两个字节表示一个汉字或符号的编码。
2、中文编码,采用的编码方案与GB2312不同,同一个字符编码在GB2312中和Big5中表示的汉字是不同的比如:“王子”两个字的GB内码是0CDF5H和0D7D3H,但是这两个编码在Big5中表示的汉字分别是“卼赽”,所以使用GB内码保存的文件如果在使用Big5码的环境中打开,会看到乱的汉字,称为乱码使用GB内码和Big5码的字符就无法共存与一个文件中2、中文编码,汉字内码:1993的国际标准化组织公布了ISO/IEC10646,通用多八位编码字符集UCS(Universal Code Set),它是包括汉字在内的各种正在使用的文字的统一编码方案,共包括128个组,每组包括256个平面,每平面包括256行,每行包括256个字位每个字符占用4个字节,最高位为0每个字节分别表示组号、平面号、行号和字位号这种方案也称为UCS-4编码,2、中文编码,汉字内码:UCS的第0组第0号平面称为BMP(基本多文种平面),它用来存放全世界主要的文字和符号,用行号和字位号表示字符编码,也称为Unicode编码,被广泛使用每个字符占用2个字节,也称为Unicode编码或UCS-2编码2、中文编码,UCS和Unicode字符的机内码采用几种变换格式(Transformation Format)来表示,包括:UTF-8、UTF-16和UTF-32等三种。
UTF-32采用的就是UCS-4的编码,一个字符固定使用4个字节来编码,是定长的编码比如:大写字母A的编码就是十六进制数“00000041”UTF-16使用2或4个字节进行编码比如:大写字母A的UTF-16编码就是十六进制数“0041”,而字符编码U+64321的UTF-16编码就是十六进制数“D950DF21”2、中文编码,UTF-8是一种针对UCS字符的可变长度字符编码它使用1到6个字节为字符编码,可以用来表示UCS中的任何字符,而且其编码中的单字节字符仍与ASCII兼容,这使得原来处理ASCII字符的软件无需或只需做少部份修改,即可继续使用因此,它逐渐成为电子邮件、网页及其他存储或传送文字的应用中,优先采用的编码互联网工程工作小组(IETF)要求所有互联网协议都必须支持UTF-8编码互联网邮件联盟(IMC)建议所有电子邮件软件都支持UTF-8编码2、中文编码,全国信息技术化技术委员会于1995年12月1日发布《汉字内码扩展规范》GBK向下与GB2312 完全兼容,向上支持ISO 10646国际标准GBK 亦采用双字节表示,总体编码范围为8140-FEFE之间GBK共收入21886个汉字和图形符号,包括:GB2312中的全部汉字、非汉字符号,BIG5中的全部汉字,与ISO 10646相应的国家标准GB13000中的其它CJK汉字,以上合计20902个汉字,其它汉字、部首、符号,共计984个。
2、中文编码,GB 18030,全称:国家标准GB18030-2005《信息技术中文编码字符集》,是中华人民共和国现时最新的内码字集,是GB18030-2000的修订版它与GB 2312-1980完全兼容,与GBK基本兼容,支持GB 13000及Unicode的全部统一汉字,共收录汉字70244个GB18030采用多字节编码,每个字可以由1个、2个或4个字节组成,支持中国国内少数民族的文字,收录范围包含繁体汉字以及日韩汉字GB18030是中国所有非手持/嵌入式计算机系统的强制实施标准2、中文编码,汉字输入码:一组按键,用于输入汉字数字编码 (区位码)字音编码(全拼,双拼)字形编码(五笔)形音编码,2、中文编码,汉字字型码:点阵式字形矢量式字形,汉字的输出(字库),汉字的输出(字库),72,128,288,矢量式字形,将汉字看作由笔画组成的图形,抽取汉字每个笔画的特征坐标值,这些坐标组合起来就得到这个汉字的矢量信息对缩放字体大小很方便,并且字体不易变形每个汉字笔画不同,抽取的矢量信息大小也不相同曲线轮廓字形,曲线轮廓字形是以二次曲线或三次曲线逼近字形轮廓的字形描述方法,常用的轮廓字形描述技术包括Postscript和TrueType两大类。
PostScript字体由Adobe公司为专业数字排版开发它使用PostScript,字形以3次贝兹曲线描述,因此一组字型可以通过简单的数学变形放大或缩小TrueType是由Apple公司和Microsoft公司联合提出的一种新型数学字形描述技术 TrueType采用几何学中二次贝塞尔曲线及直线来描述字体的外形轮廓OpenType字体,OpenType字体是为了实现Windows和Macintosh系统兼容,由美国微软公司与Adobe公司联合开发,用来替代TrueType字型的新字型它在继承了TrueType格式的基础上增加了对PostScript字型数据的支持,所以OpenType的字形数据既可以采用TrueType的字形描述方式,也可以采用PostScript的字型描述方式同一个OpenType字体文件可以用于Mac OS,Windows 和 Linux系统,这种跨平台的字库非常方便于用户的使用Microsoft从Windows 2000系统开始兼容OpenType字库OpenType字体,ClearType,是微软在Windows中提供的屏幕亚像素微调字体平滑技术,让Windows字体更加漂亮。
ClearType主要是针对LCD液晶显示器设计,可提高文字的清晰度基本原理是,将显示器的R, G, B各个次像素也发光,让其色调进行微妙调整,可以达到实际分辨率以上(横方向分辨率的三倍)的纤细文字的显示效果在Windows XP平台上,这项技术默认是关闭,到了IE7才默认打开依靠ClearType技术提高字体的可读性,相当程度上依赖于使用的字体,微软在Windows Vista里,新发布了两个支持ClearType的中文字库:微软雅黑和微软正黑体Windows7也对 ClearType提供默认支持2、中文编码,字符代码化(输入),3、BCD编码,用二进制数表示10进制数的一种编码方法,用4位二进制数表示一位10进制数,常见的编码是8421码,用0000到1001表示十进制数的0到9例如:十进制数128表示为: 0001 0010 1000,。