多语言桌面排版 DTP — 关于编码
关于编码
所谓编码,是以固定的顺序排列字符,并以此做为记录、存贮、传递、交换的统一内部特征,这个字符排列顺序称为“编码”。和中文字库有关的常见编码有:大陆 GB 码、GBK 码、港台 BIG-5 码、GB18030 码等。下面简要介绍一下。
GB 码
全称是 GB2312-80《信息交换用汉字编码字符集 基本集》,1980年发布,是中文信息处理的国家标准,在大陆及海外使用简体中文的地区(如新加坡等)是强制使用的唯一中文编码。 P-windows3.2 和苹果 OS 就是以 GB2312 为基本汉字编码, Windows 95/98 则以 GBK 为基本汉字编码、但兼容支持 GB2312 。
GB 码共收录 6763 个简体汉字、 682 个符号,其中汉字部分:一级字 3755 ,以拼音排序,二级字 3008 ,以偏旁排序。该标准的制定和应用为规范、推动中文信息化进程起了很大作用。
1990 年又制定了繁体字的编码标准 GB12345-90 《信息交换用汉字编码字符集 第一辅助集》,目的在于规范必须使用繁体字的各种场合,以及古籍整理等。该标准共收录 6866 个汉字(比 GB2312 多 103 个字,其它厂商的字库大多不包括这些字),纯繁体的字大概有 2200 余个。
GB18030-2000
英文名: Chinese Internal Code Specification
中文名:信息技术 信息交换用汉字编码字符集
基本集的扩充( 2000-03-17 发布和实施)
单字节、双字节、四字节编码
向下与国家标准 GB 2312 信息处理交换码所对应的事实上的内码标准兼容。
GB18030 汉字编码标准共收录 2.7 万个汉字,总编码空间超过 150 万个码位。它延续了 GB2311-1990 的编码体系结构,采用单 / 双 / 四字节混合编码,与现有绝大多数操作系统、中文平台在内码一级兼容,可支持现有应用系统。 GB18030 还收录了藏、蒙、维、彝等多种少数民族文字。 GB18030 将为中国的中文字符编码与国际标准接轨架起桥梁,为中文信息在国际互联网上的传输起到基础性的支撑作用。此外,该标准也将为推进少数民族的信息化、网络化建设奠定基础。
Unicode 编码 (Universal Multiple Octet Coded Character Set)
国际标准组织于 1984 年 4 月成立 ISO/IEC JTC1/SC2/WG2 工作组,针对各国文字、符号进行统一性编码。 1991 年美国跨国公司成立 Unicode Consortium ,并于 1991 年 10 月与 WG2 达成协议,采用同一编码字集。目前 Unicode 是采用 16 位编码体系,其字符集内容与 ISO10646 的 BMP ( Basic Multilingual Plane) 相同。 Unicode 于 1992 年 6 月通过 DIS (Draf International Standard),目前版本 V2.0 于 1996 公布,内容包含符号 6811 个,汉字 20902 个,韩文拼音 11172 个,造字区 6400 个,保留 20249 个,共计 65534 个。
GBK 编码 (Chinese Internal Code Specification)
GBK 编码是中国大陆制订的、等同于 UCS 的新的中文编码扩展国家标准。GBK 工作小组于 1995 年 10 月,同年 12 月完成 GBK 规范。该编码标准兼容 GB2312 ,共收录汉字 21003 个、符号 883 个,并提供 1894 个造字码位,简、繁体字融于一库。
Windows95/98 简体中文版的字库表层编码就采用的是 GBK ,通过 GBK 与 UCS 之间一一对应的码表与底层字库联系。
BIG5 编码
是目前台湾、香港地区普遍使用的一种繁体汉字的编码标准,包括 440 个符号,一级汉字 5401 个、二级汉字 7652 个,共计 13060 个汉字。
