欢迎来到通信人在线![用户登录] [免费注册]

关于我国汉字编码字符集的国家标准情况

浏览:3343  来源:通信人在线  日期:2023-01-25

汉字及我国少数民族文字是一类表意文字,因此其文字数量巨大,其编码使用的位组就相当的庞大,通常需要双字节或四字节来编码。它不像英文是一类拼音文字,只需要对26个英文字母等进行单字节编码。为此,为了使中文(包括汉字及我国少数民族文字等)在信息处理、交换、传输和呈现等,必须进行二进制编码,形成编码字符集,这里的字符集称之为图形字符集。为此,关于中文编码字符集我国出台了多个国家标准以规范之。下述对这类国家标准情况进行介绍。

欲更多了解我国字符编码标准介绍的请进入

一、第一个含有汉字编码字符集的国家标准:GB/T 2312

1、标准的基本情况

我国第一个包含有汉字编码字符集的国家标准,是198039日发布的GB 2312-1980《信息交换用汉字编码字符集 基本集》,并于198151日起实施。它是由当时的国家第四工业机械部提出,由当时的国家标准总局发布的。该标准至今没有修订,但仍然有效。只是2017323日起根据国家标准化委员会2017年第7号公告和强制性标准整合精简结论,该标准转化为推荐性标准,不再强制。

2、标准的内容组成情况

GB/T 2312-1980《信息交换用汉字编码字符集 基本集》规定了汉字信息交换用基本图形字符及其二进制编码表示,适用于一般汉字处理、汉字通信等系统之间的信息交换。该标准的内容主要是由5章、3个附录和3个索引所组成,其章节、附录和索引的名称详见下表1-2

1-2GB/T 2312-1980标准的目录

欲详细了解GB/T 2312-1980标准原文具体内容的请进入

3、有关说明

第一,1980年我国发布GB/T 2312时,它称作基本集,因它编码的汉字仅有常用的6763个,为此我国又发布了诸多个辅助集的标准,以扩充更多的汉字或适应更多应用场景的汉字,以配合GB/T 2312-1980的基本集的应用。

欲具体了解我国汉字编码字符集辅助集标准情况的请进入

第二,即使我国发布了汉字编码字符集的基本集和多个辅助集的标准,仍然不能满足我国编码汉字的使用需要,甚至多个标准为大家施行带来很大不变。为此,在19951215日,当时的电子部和国家技术监督局联合以“技监标函[1995] 229号”文件的形式颁布了《汉字内码扩展规范(GBK)》(1.0版)。该规范仅是一个国家部门的技术规范指导性文件,并不是以国家标准的形式发布,因此这里不按国家标准介绍。关键是该规范已被GB 18030-2000标准代替而作废了。

欲具体了解我国《汉字内码扩展规范(GBK)》介绍的请进入

二、等同采用(IDT)国际汉字编码字符集标准的国家标准:GB/T 13000

1 标准的基本情况

为了世界各种文字编码, ISO/IEC制定了信息交换用世界各国文字编码字符集的标准,即ISO/IEC 10646《信息技术 通用多八位编码字符集(UCS)》。由于它容纳了各国文字的编码,需要大量的编码位置,因此,它的编码体系与GB/T 2312-1980不同,即它采用了多八位的编码方式,通常是双八位(用两个八位表示一个字符)或肆八位(用四个八位表示一个字符)。在通用多八位编码字符集(UCS)中也包括汉字,它称之为中、日、韩(CJK)统一汉字。

最初ISO/IEC 10646《信息技术 通用多八位编码字符集(UCS)》是以系列标准发布的。它的第一部分是1993年发布的ISO/IEC 10646.1《信息技术 通用多八位编码字符集(UCS 第一部分 结构和基本的多文种平面》(曾于2000年进行了第1次修订)。它的第二部分是2001年年发布的ISO/IEC 10646.2《信息技术 通用多八位编码字符集(UCS 第二部分 辅助平面》。200312ISO将两个部分合二为一,修订为ISO/IEC 10646《信息技术 通用多八位编码字符集(UCS)》。

因此,我国在1993年等同采用(IDT)了ISO/IEC 10646.11993,发布了GB 13000.1-1993《信息技术 通用多八位编码字符集(UCS 第一部分 体系结构和基本的多文种平面》。在2010年对GB 13000.1-1993进行了第1次修订,修订时等同采用(IDT)了ISO/IEC 106462003,发布了GB 13000-2010《信息技术 通用多八位编码字符集(UCS)》。但根据国家标准化委员会2017年第7号公告和强制性标准整合精简结论,自2017323日起,该标准转化为推荐性标准,不再强制执行。这两个版本标准的基本情况详见下表2-1,包括标准历次版本的名称(有变化情况)、发布时间与实施时间、摘要与适用范围等。

2-1:我国通用多八位编码字符集(UCS)的标准基本情况

2、标准的修订情况

修订本GB/T 13000-2010代替了GB 13000.1-1993。该次修订对GB 13000.1-1993的变动主要表现在下表2-2所列的内容。

2-2GB/T 13000-2010GB 13000.1-1993修订变化的主要内容

3、标准的内容组成情况

GB 13000.1-1993标准的主要内容是由26章和13个附录所构成,其章节与附录的名称详见下表2-3-1。它采用通用多八位编码字符集(UCS)方式对两万多个汉字进行了字符编码。

2-3-1GB 13000.1-1993的目录

GB/T 13000-2010标准是对GB 13000.1-1993的修订,但标准的内容组成增加了许多,它是由33章和19个附录所构成,其章的名称与附录的名称具体详见下表2-3-2

2-3-2GB/T 13000-2010的目录

欲详细了解GB/T 13000-2010标准原文具体内容介绍的请进入

三、良好兼容性汉字编码字符集的国家标准:GB 18030

1 标准的基本情况

在当时,我国关于汉字编码字符集的标准有GB/T 2312GBKGB/T 13000,为使用带来了一定的不便,需要考虑互相兼容的问题。为此,我国开始逐步统一这些相应的汉字编码体系及其字符集的容量及数量。于是,我国又发布了GB 18030标准,其首版本发布于2000年,目前又在2005年和2022年进行两次修订,这三个版本标准的基本情况详见下表3-1-1,包括标准的名称(有变化)、标准的发布时间与实施时间、标准的摘要与适用范围等情况。该标准目前是我国在汉字编码方面唯一的一个强制性标准,但各版本的强制性要求有所不同,具体要求详见下表3-1-2

3-1-1GB 18030标准的基本情况

3-1-2GB 18030标准各版本的强制性要求

2、标准的修订情况

GB 18030标准,目前已经历了三个版本,其后版本对前版本在修订时,变化的主要内容汇总于下表3-2中。另外,GB 18030-2022版修订时,内容变化较大,不但构成内容的结构进行了调整,而且对双字节编码区的字符有所调整,对四字节编码区增加了大量的字汇。下附件3是一个对GB 18030-2022版本的编制说明,可供通信人参考。

3-2-GB 18030标准相应版本修订变化的主要内容

附件 3GB 18030-2022版本标准的编制说明

3、标准的内容构成情况

GB 18030-2000《信息技术 信息交换用汉字编码字符集 基本集的扩充》标准当时是以GB/T 2312的扩充而编制,所以称之为基本集的扩充。因此,该标准向下与GB/T 2312信息处理交换码所对应的事实上的内码标准兼容;然后在字汇上支持GB/T 13000.1-1993的全部CJK统一汉字和全部CJK统一汉字扩充A的字符。对于GB 18030-2000标准的主要内容是由8章和5个附录所构成,其章、节和附录的名称详见下表3-3-1注意:GB 18030-2000实施之日起代替了《汉字内码扩展规范(GBK)》(技监标函[1995] 229号)。

3-3-1GB 18030-2000标准的目录

GB 18030-2005《信息技术 中文编码字符集》标准与GB 18030-2000标准相比,主要是在四字节编码部分增加了CJK统一汉字扩充B的字符和我国少数民族文字的字符。该版标准的主要内容也是由8章和5个附录所构成,且其章、节和附录的名称同表3-3-1

GB 18030-2022《信息技术 中文编码字符集》标准与GB 18030-2005标准相比,标准的内容结构进行了调整;同时对双字节编码区的字符有所调整;关键是对四字节编码区增加了大量的图形字符,主要包括CJK统一汉字、CJK统一汉字的扩充C~扩充F,及我国少数民族文字的字符等。该版标准的主要内容也是由9章和5个附录所构成,且其章、节和附录的名称详见下表3-3-2

3-3-2GB 18030-2022标准的目录

欲详细了解GB 18030-2022标准原文具体内容的请进入

欲进一步了解语音编码技术的标准情况的请进入

附录
联合国儿童基金会助学
© 2004-2025 通信人在线 版权所有 备案号:粤ICP备06113876号 网站技术:做网站