北京汇智高科信息技术有限公司附件:汇智高科语言文字加工规范附件:汇智高科语言文字加工规范一、文件存放规则每册工具书包含一个用“书号”+“中文书名”命名的文件夹,文件夹中分别存放“版权信息.DOC”、“样式说明.DOC”、“体例.DOC”、“词典内容.DOC”、全书图像合订PDF(电子化工具书)、TIF子目录(本目录中存放全书所有插图文件)、贴图文件夹(存放集外字的GIF格式贴图文件、贴图文件的贴图字记录表文件);“版权信息.DOC”、“体例.DOC”、“词典内容.DOC”为工具书原书内容,“样式说明.DOC”为针对单本工具书体例、凡例、样式说明或使用说明制定的在WORD处理中相对应样式,“前言”、“序”、“目录”、“检索表”等与辞典内容无关的部分不需要加工,最终WORD文件不需要遵循原书排版样式二、电子文档规范1. 电子化以及电子文档整理后的形式为Word文档(Microsoft office word 2003)2. 统一采用Unicode 5.0编码3. WORD文档的页面统一采用A4页面制作,默认五号字(除样式限定外)4. 尽可能少使用复杂的字体、字号变化建议中文字体使用windows系统自带的“宋体”、“黑体”,英文字体要用windows系统自带的“Times New Roman”,音标使用Segoe UI。
三、电子内容构造1. Word文档的内容顺序遵循工具书的页码顺序,文档内容不保留工具书的页码、分栏、页眉、页脚、页边以及装饰性信息(体例中要求信息除外,例如边栏内容需要保留)2. 工具书中的词目、读音、词类、释义、例句内容不遵循体例规则,要求严格遵守本规范中定义的样式规则,该规则不能变改,存放在“样式说明.DOC“3. 体例中的各类符号、序号、标签、缩略语、斜体、加重、儿化等规则不能遗漏4. 工具书中的特殊符号或其他不便直接录入的样式均可以根据各自的方便性自行定义样北京汇智高科信息技术有限公司式或转义符号自行定义的样式或转义符号务必在“样式说明.DOC”中与原体例规则标明对照关系后追加到,不能在单册图书中重复使用相同的转义符号或样式5. 嵌入到WORD中的“展示插图”单独占一行,上下文或者上下图位置要准确,且该图下笔为该图对应的“插图外部文件”名称(不需要带文件路径),单独占一行,再下行为图片的文字说明内容,需要单独定义图片说明文字样式具体图片要求参见“图片构造标准”6. 嵌入到WORD中的“特殊符号”要确保该符号的显示大小,是否断行等规则,保持与工具书中该符号的相对位置、上下文属性一致。
7.边栏信息的WORD处理,将边栏中出现的信息加插到主栏对应信息的后面(保持主栏信息的相对完整且紧跟其后),采用自行定义样式标识8. 表格:词典正文、附录中的表格,制作样式后可不保留表格格式(无表格线),但表中内容须保持前后、左右、上下相对位置的准确无误,不能串行、错行、乱行,正文中的表格要保持在原文中的相对位置,不能改变四、细节说明1. WORD中可以使用Unicode编码方式表示字符,Unicode编码可以分别使用10进制和16进制两种方式10进制Unicode表示为“”例如“”表示字符“β”;16进制Unicode表示为“”,例如“”,表示字符“β”;其中“”均为半角字符2. 生僻字符的处理:纸书、电子版中出现的生僻字符(生僻的字和符号)按以下原则处理:(1)采用Unicode 5.0(ExtB)编码标记Unicode 5.0中能找到的生僻字符应全部用该编码标记 (2)Unicode 中没有的集外字(符号)采用贴图方式 (3)必须以每本书为单位制作完整的集外字(符号)的GIF格式贴图文件及贴图文件的贴图字记录表文件(以文件夹形式存储)3. 每一段段首不需要空格,在每一个词目结束和下一个词目开始时,必须换段;英文每个单词之间须有一个半角空格,英文中每个标点须是半角标点,标点后紧跟一个半角北京汇智高科信息技术有限公司空格;英文与中文切换部分,英文标点必须保持英文拼写规则;英文中出现的标点为半角,中文中出现的标点为全角。
4. 严格区分英文大小写5. 特别注意易混淆英文字母,如“c”和“e”、“v”和“y”、“l”和“I”、英文“l”和数字“1”、“rn”和“m”以及其他小语种信息6. 正确区分英文破折号和英文连字符,须严格按照原书录入7. 罗马数字序号须统一用大写英文字母做成;“Ⅰ、Ⅱ、Ⅲ”,不能用“Ⅰ、Ⅱ、Ⅲ”8. 斜线统一采用半角斜线,斜线前后各空一个半角空格,网址里面的两个半角斜线之间不要加空格9. 英文名字中的点,统一采用中圆点(Shift+2)10. 英语缩写里面的“撇”统一用半角单引号“'”,如:It's…、…for windows'…11. 每本书须存在五种基本样式:词头、读音、词类、释义、例句12. 在样式或文字内容中自行定义使用的“自定义符号”,除必须遵循上文“二 .4”中的要求外,还需符合以下原则:“自定义符号”优先采用Unicode 5.0中的;Unicode 5.0没有合适的,再另行选择适合、相近、明白的其他符号来表示五、图片构造标准1. 扫描图的原始精度一律采用:“600 像素/英寸”2. 页内插图分为“插图外部文件”与WORD中“展示插图”两类3. “插图外部文件”的分辨率为“600像素/英寸”,命名规则为“pic_页码_页内序列号.TIF”,其中页码为图片所在工具书的页码位置,页内序号为该图片在当前页中所有图片的顺序编号。
统一存放在子目录“TIF”中4. WORD中“展示插图”采用分辨率不超过“150像素/英寸”方式嵌入到WORD文档的对应位置,能够显示清晰、而容量较小为原则北京汇智高科信息技术有限公司5. “特殊符号”截图只在WORD中出现,采用分辨率不超过“150像素/英寸”方式嵌入到WORD文档的对应位置,能够显示清晰、而容量较小为原则6. 扫描单色或灰度图片的颜色模式为:“灰度”7. 扫描彩色图片的颜色模式为“RGB”8. 扫描图片要字迹清楚,背景干净,无脏点,图片端正9. 释文中补造的图片(集外的字或符号;如5下加点、化学键等)须与插图分开,分别建立文件夹存放六、PDF文件制作标准说明1. 将实体书录入时扫描的原始图片制作成PDF文件2. 扫描的精度一律采用:“600像素/英寸”3. 扫描的原稿如果是单色的颜色模式为:“灰度”4. 扫描的原稿如果是彩色的颜色模式为“RGB”.5. 扫描的图片在合并为PDF前都要将图片:以文字垂直为标准转正6. 扫描的图片在合并PDF前将本页以外的内容裁切掉7. 最终的PDF文件命名规则为:书名.PDF.附录一字符样式名称对应表效果字符样式名称粗正体 粗正体 斜体 斜体 北京汇智高科信息技术有限公司粗斜体 粗斜体 删除线删除线波浪线波浪线双划线 双划线 着重符 着重符 阴影 阴影 框 框 音标“θ”音标音标斜体“θ”音标斜体下划线下划线上标上标下标下标粗斜体+ +下划线粗斜体+下划线粗正体+ +下划线粗正体+下划线斜体+下划线斜体+下划线粗正体+ +删除线粗正体+删除线阴影阴影+删除线上标上标+下划线标准音标字符样式名称iː(0069 02D0)ɪ(026A)eæ(00E6)ɜː(025C)ə(0259)ʌ(028C)uːʊ(028A)ɔː(0254)ɪəeəʊəɔeiaiɔiəuauiəεəuəpbtdkgfvθ(03B8)ð(00F0)mnŋ(014B)lrhwj北京汇智高科信息技术有限公司∫(222B)ʒ(0292)t∫dʒtrdrtsdzszɝ(025D)ḷ(1E37)ṇ(1E47)ɚ(025A)ɑrɪrɛrʊrojaɑ(0251)ε(03B5)uəːɒ(0252)ɑː(0251)eɪaɪɔɪəʊaʊˌ(02CC)ˈ(02C8)ɔr附录二 样式说明学汉语词典样式说明学汉语词典样式说明a.字体样式字体样式中文使用宋体,西文使用Times New Roman,字号均为5号b.近义词辨析近义词辨析近义词辨析使用录入:c.c. ------------------------------------------儿化音儿化音北京汇智高科信息技术有限公司原文中儿化音处的“儿”比正常字号小,为了将来处理xml方便我们使用下标方式记录儿化音:录入 好好儿的d.d. ------------------------------------------注意项注意项词条注意项使用录入:e.数字序号数字序号❶❷❸等序号录入时统一使用数字+“.“+空格,现在都已替换为❶❷❸,考虑到序号在下一个项目中xml化时只是用数字,实际制作中是否需要替换为文字序号待与客户商议。
黑底白字中文序号等统一使用中文+“.“+空格, 如“一. ”,“二. ”,现在暂按照生僻字处理进行截图,考虑到序号在下一个项目中转化xml时只化作数字,实际制作中待与客户商议f.样式转换样式转换拼音标有下划线,为了下一个项目时转化为xml时使用彩色的字体在词典中表示例句,用粗体代替g.特殊符号特殊符号。