藏文字体的OpenType特征

资源描述

《藏文字体的OpenType特征》由会员分享，可在线阅读，更多相关《藏文字体的OpenType特征（5页珍藏版）》请在金锄头文库上搜索。

1、藏文字体的O p e n T y p e 特征欧珠西藏大学工学院西藏拉萨市8 3 0 0 0 0 n g o d r u p u t i l x t c d u m 一、引言随着信息技术尤其是计算机网络在我国藏族地区的发展，以及世界范围的经济、文化的不断交流，包括西藏在内的所有藏语地区的藏语文工作者和用户对高质量的藏文版本的计算机操作系统及应用软件有着越来越迫切的需求。但由于藏语言本身的特点，其处理方法不同于拉丁文字、汉字的处理方法并且更复杂，这给开发藏文版本的软件带来了很大的团难。当前国内所使用的藏文软件，几乎无一例外的不完全支持国际编码标准q I S O I E C1 0 6

2、 4 6 0 ( 或U n i c o d e ”1 ) 中藏文编码字符集国际标准( 基本集) ，而且很多软件也不太符合藏语言文字的规范这给藏语言版本的软件发展制造了很大的障碍。当前，在W i n d o w s 和L i n u x 中对复杂文本显示的支持是通过使用O p e n T y p e 字体文件来实现的。本文将详细介绍藏字体 O p e n T y p e 结构特征和设计方法，以便于使用O p e n T y p e 来支持复杂藏文文本的止确显示。二、藏文具备了作为一种复杂文本语言的基本特征藏文可以被视为基本字符和基本字符通过纵向叠加而成的字符串构成一个完整藏文词素的基本

3、单位是由藏文中的“音节分割符t s h e gb a r ”来确定。一个藏文词由一个或多个音节而构成。每一个音节包含着“基字( r o o tl e t t e r ) ( m i n gg z h i ) ”和可能跟随的如前加字 ( p r e f i x ) 、上加字( h e a dl e t t e r ) 、元音符号( v o w e l ) 、后加字( s u f f i x ) 、再后加字( p o s t s u f f i x ) 。音节，通常是由音节分割符t s h e gb a r 或者其它标点符号来划分的。图l 给出了一个藏文字的各组成构建。 p s u b j o

4、 i n e dl e t t e r 图1 藏文字的各组成构建在I S O1 0 6 4 6 U n i c o d e 标准编码中。像拉丁语、汉语，它们文字的显现形式与I S O 1 0 6 4 6 U n i c o d e 中编码字符是一一对应的，即字符( C h a r a c t e r ) 与它的显现字型( G l y p h ) 是一一对应的，而且显示的顺序和在内存中存放的顺序是一样的，但藏文却有着比这更复杂的特性即一个藏文字符则需要用几个编码来表示，长度不定，给藏文在信息系统的实现带来极大的麻烦。具体而言藏文有如下一些特性： ( 1 ) 双向性。虽然藏文书写方向是从左向

5、右，但是在一个藏文文本中纵向叠加的辅音加上元音的组合字是经常存在和使用的。然而，无论是两个相邻的字符将要纵向地堆叠或者 5 8 1 从左到右形式的拼写，后一个字符不能简单地由上下文或语法规则来确定。而不管是什么文字，在计算机中，U n i c o d e 字符串都是以逻辑顺序存储的，即它们的存储方向都是从左到右如果在处理多语言文字的U n i c o d e 字符串时系统就必需识别出各种文字的方向。 ( 2 ) 与上下文内容相关的显现形式。字符在词的不同位置有着不同的显现形式，一般来说，可以分为四种域的显现形式：独立域、词首域、词中域、词尾域。字符在这四个域中有着不同的显现形式。如藏

6、文字0 F 6 2 在作为藏文的基字和上加字时有不同的显现形式。这里引出了两个概念：名义字符及其变形显现形式，名义字符指在U n i c o d e 中编码了的字符；变形显现形式指在语义上还是那个字符，但它却有着和那个字符完全不同的显现形式，它们在U n i c o d e 中没有码位、没有编码。 ( 3 ) 连字( 1 i g a t u r e ) 形式。连字是由两个或多个其它的图形字符按单个图形符号成像而形成的图形符号。藏文手写中常用一个特殊的字型来显示( 或代替) 几个字型。三、I S O I E C1 0 6 4 6 和U n i c o d e 国际标准中藏文的编码模式

7、藏文由于叠加字符的各构件变形和跨度都较大，特别是叠加层数较多的字符，各字母在不同层的高度和宽度都有不同的要求，因此藏文字符的纵向叠加是藏文信息处理的一人难点。正因为如此在U C S 藏文编码中所使用的编码模式是一个基于藏文正字法或字布局而不是基于藏文语法规则的确切的叠加模式。在U C S 中安排了两个完整的辅音集合：一个是从 U O F 4 0 到U O F 6 A 的前导辅音字符( 主辅音字符) 用于单一的辅音或者是任何的组合叠加中出现在最上层位置的辅音字符。另一个是从U O F 9 0 到U O F B c 的组合用辅音字符( 附加辅音字符) ，用于在叠加时出现的附加辅音。对于藏

8、文元音，在U C S 中作为一种标记字符与主辅音或附加辅音的叠加相结合，显示在辅音叠加堆的上部或者下部。其拼写顺序是与藏文书写时的顺序一致，即总把元音字符放在它所应用到的主辅音或辅音叠加堆的后面。在U C S 中其编码安排在U O F 7 1 到U O F B l 问。四、O p e n T y p e 字体技术概述当前常用的字体技术是T r u e T y p e 和T y p e l 等字体( f o n t 技术，在这些字体中每个字型与标准中编码的字符是一一对应的，如果使用T r u e T y p e 或T y p e l 字体技术来处理显示复杂文本，并完全遵从U n i

9、 c o d e 标准时，就会显得力不从心但是现在很多的少数民族语言软件就是基于这样的字体技术处理的，常用的做法是把字符的显现形式或连字形式也放到编码标准中，而这样违反标准的原则，不能做到真正的支持国际标准。 O p e n T y p e 是M i c r o s o f t 公司和A d o b e 公司联合开发的一种基于O n i c o d e 与平台无关的字体格式，它是T r u e T y p e 字体格式的一种扩展，并融合了P o s t S c r i p t 字体技术。A d o b e 公司已将整个A d o b eT y p eL i b r a r y 转换成这

10、种格式。迄今为止，A d o b e 公司也已提供了几千种O p e n T y p e 字体。O p e n T y p e 的优势是其跨平台性和支持扩展字符集和布局特征的能力，正是由于这两种优势使得O p e n T y p e 能够提供丰富的与语言特征相关的支持和高级排版控制从而实现复杂文本显示中根据文字上下文选择正确的显现字形的功能。 4 1 O p e n T y p e 字体技术中的两个关键定义一5 8 2 1 ) 字符( C h a r a c t e r ) ：U n i c o d e 标准中的码位，每个字符与一个码能相对麻。 2 ) 显现字形( G l y p h

11、) ：字符的显现形式，一个字符可能会对应多个显现形式。 4 2 O p e n T y p e 布局表 O p e n T y p e 字体在支持T r u e T y p e 体系结构的基础上增加了一些高级排版特征，正是这些高级排版特征对复杂文本的处理提供了很好的支持。相应的特征数据放在如下的各表中： 1 ) 字型替换表( G S U B ：G I y p hS u b s t i t u t i o nT a b l e ) 。 2 ) 字型置位表( G P 0 s ：G l y p hP o s i t i o n i n gT 曲l e ) 。 3 ) 字型定义表( G D E F

12、：G l y p hD e f i n i t i o nT a b l e ) 。 4 ) 字型调整表( J S T F ：J u s t i f i c a t i o nT a b l e ) 。 5 ) 基线数据表( B A S E ：B a s e li n eT a b l e ) 。这几个表统称为O p e n T y p e 布局表( O p e n T y p eL a y o u tT a b l e ) ，布局表主要目的是让字体尽最人程度变得智能。其中对藏文处理功能的最主要的表是G S U B 和G P O S 两个表。五、藏文字体的O p e n T y p e

13、特征对一个藏文字体0 p e n T y p e 定形引擎处理( s h a p i n ge n g i l 2 e ) ，在处理文本中所经过的四个步骤是： 1 、分析音节。 2 、重排字符。 3 、在字库中使用G S U B ( G l y p hS u b s t i t u t i o nT a b l e ) 特征和查找链袭( L o o k u p sT a b l e ) 来替换显现字符( G l y p b ) 。 4 、在字库中使用G P O S ( G l y p hG l y p bP o s i t i o n i n gT a b l e ) 特征和查找链表(

14、L o o k u p sT a b l e ) 来对显现字符定位。 ( I ) 分析音节构成一个完整藏文词素的基本单位是由藏文中的“音节分割符t s h e gb a r ”来确定。词由一个或多个音节而构成。每一个音节包含着“基字( r o o tl e t t e r ) ( m i n gg z h i ) ”和可能跟随的如前加字( p r e f i x ) 、上加字( h e a dl e t t e r ) 、元音符号( v o w e l ) 、后加字( s u f f i x ) 、再后加字( p o s ts u f f i x ) 。音节通常是由音节分割符t s h

15、e gb a r 或者其它标点符号来划分的。城文字中间不能留出字隙藏文字体定形引擎处理接收到的一个完整的藏文音节部分( 单位) 是按顺序而显现的一个U C S 字符串。如藏文的一个音节单位的字司鞘q q ，是由U C S 中的字符串日( U + 0 F S 6 ) 、镧u 叼F 6 6 萄( u 十0 F 9 2 ) 0 u + 0 F B 2 ) 、毫u + o F 7 4 ) ，q ( u + o F 5 6 ) ，q ( U 卜0 F 6 6 ) 和( U + O F 0 8 ) 来组成。当藏文字中有组合字符时。接收到的字符串并不一定是按照藏文字的位置依次排列的。藏文字定形引擎

16、先确定基本辅音字符再按照基本辅音字符与其他字符的位置关系来确定其他位置上的字符一5 8 3 ( 2 ) 重排字符( R e o r d e r i n gc h a r a c t e r s ) 藏文字体定形引擎处理创建和管理一个字符代码的缓冲区。这个缓冲区，根据藏文音节分割符( t s h e g - b a r ) 而分组为“丛或群”( c l u s t e r s ) ，用来重新排序字符代码。U n i s c r i b e 生成和管理一个缓冲区用于适当地重新排列字符串的编码。U n i s c r i b e 首先按照一定的规则以串为单位来重新排列字符的编码；接着U n i s c r i b e 用重新划分后的字符串按照O T L ( O p e n T y p eL a y o u tS e r v i c e sL i b r a r y ) 服务器的字形替代函数( g l y p hs u b s t i t u t i o n f u n c t i o

展开阅读全文

藏文字体的OpenType特征

最新文档