欢迎来到通信人在线![用户登录] [免费注册]

关于汉字内码扩展规范(GBK)

浏览:11639  来源:通信人在线  日期:2023-01-25

一、GBK诞生的因原

我们知道,随着信息化技术的发展,为了使我国汉字的信息化处理与通信,我国在1980年首次发布了第一个汉字编码字符集的国家标准,即GB 2312-1980《信息交换用汉字编码字符集 基本集》。之所以称为基本集,是因为该标准仅仅收录的是我们日常最为常用的6763个汉字。当初的思路是以后陆续发布其汉字编码字符集的辅助集的标准,来逐步扩充其它汉字,包括不同应用场景的汉字(如繁体字、地名用字以及在古籍整理、古典文献研究方面的应用等),以适应我国更多汉字的信息化编码。在1995年前,我国相继发布有5个辅助集的标准(注:我国一共发布有7个辅助集的标准)。然而,此种情况又带来了一些问题,如字符编码位置安排的问题;多个标准给使用者带来使用不便的问题等。这就是早期我国汉字编码字符集的一个现状,即因原一。

欲具体了解上述我国汉字编码字符集标准介绍的请进入GB 2312(基本集)辅助集

其因原二是,在上世纪九十年代初,美国一些企业联合发布了一种字符集编码标准,被称为“Unicode”,被ISO接收后发布了称为“通用多八位编码字符集(UCS)”(标准编号为ISO/EEC 10646)。其中。Unicode/UCS收录了大量中日韩(CJK)所使用的汉字,称为CJK统一汉字。

欲具体了解Unicode/UCS标准介绍的请进入UCSUnicode

其因原三是,微软曾发布的一个字符编码标准叫CP 936字码表(Code Page 936),其标准内容同GB 2312-1980,为了收录Unicode/UCS中的CJK统一汉字,又发布了CP 936字码表扩展,使得微软的操作系统在我国得到了广泛的应用。

因此,我国亟待需要一个统一的汉字字符集编码标准,能同时兼容并支持GB 3212-1980(应包括辅助集)和Unicode/UCS,以集中收纳更多现有汉字字符集。

二、GBK的发布与废止

鉴于上述因原,我国在19951215日,参照微软公司的CP 936扩展,结合我国汉字的当时情况(各种字典/辞源的简化字、繁体字、生僻字等),发布了《汉字内码扩展规范(GBK)》(1.0版),简称GBK,意为国标(GB 2312)汉字编码字符集的扩充(K扩充的汉语拼音第一个字母)。GBK 向下与 GB 2312 编码兼容,向上支持 ISO 10646.11993国际标准(我国等同采用(IDT)所发布的标准为GB 13000.1-1993),是前者向后者过渡过程中的一个承上启下的产物,GBK大大扩充了GB 2312字汇的汉字编码字符集。

汉字内码扩展规范Chinese Internal Code Extension Specification),当时并没有以国家标准(GB)发布,而是以部门文件的形式发布,即由当时的电子工业部和国家技术监督局联合以“技监标函[1995] 229号”文件的形式发布的,属于技术规范指导性文件。GBK虽然是一个技术指导性文件,但其地位成为事实上的一个国家标准,因为在当时它是我国字汇最多的一个汉字字符集,且向上支持国际标准(Unicode/UCS)、向下兼容我国早期标准(基本集及辅助集)。

当时GBK之所以没有以国家标准颁布,是因为GBK所规范的内容并不十分成熟,包括编码体系的设计、码位的安排、兼容性的安排、汉字的来源等等。只有待这些技术问题相对成熟后,再发布成我国的一个国家标准。于是,到了2000年,我国就发布了国家标准GB 18030-2000《信息技术 信息交换用汉字编码字符集 基本集的扩充》,它代替了《汉字内码扩展规范(GBK1.0版)》(技监标函[1995] 229号),此时,GBK1.0版)完成了过渡性规范的使命。

欲详细了解GB 18030标准介绍的请进入

三、GBK的内容简介

1、图形字符

GBK字符集中,一共有21 003个汉字和883个图形符号,它与GB 2312国标汉字字符集对应的事实上的内码标准兼容。除了GB 2312中的全部汉字(GBK安排称为GBK/2)和符号(称为GBK/1)之外,还收录了包括繁体字在内的大量汉字(GBK/4GBK/3)和符号(GBK/5),例如計算機係等繁体汉字和冃冄冇鎔生僻的汉字,在字汇一级支持ISO/IEC 10646-1(即GB 13000.1)的全部20902个中日韩(CJK)汉字。GBK所收录的字汇情况被汇总于下表3-1-1中;且GBK 对字形作了如下表3-1-2的规定。

3-1-1GBK所收录的字汇情况

3-1-2GBK 对字形的规定

2、编码方法

GBK字符集中的每一个字符都采用双字节表示,总的编码范围为8140~FEFE,首字节在81FE之间,尾字节在40FE之间(剔除xx7F一条线不安排字符),总计23940个码位,共收入21886个汉字和图形符号,未使用的区域作为用户自定义区。GBK汉字在双字节代码空间中的码位详见下图3-2GBK的区位安排说明详见下表3-2

3-2GBK汉字在双字节代码空间中的码位示意图

3-2GBK的区位安排说明

《汉字内码扩展规范(GBK)》(1.0版)的发布,当时的中文版的WIN95WIN98WINDOWS NT以及WINDOWS 2000WINDOWS XPWIN 7等都支持GBK编码方案。成为了我国当时应用最广的汉字字符集。

欲进一步了解我国汉字编码字符集介绍的请进入

联合国儿童基金会助学
© 2004-2025 通信人在线 版权所有 备案号:粤ICP备06113876号 网站技术:做网站