从本质上说GB2312-1980之类的国标码属于什么码?
《信息交换用汉字编码字符集》是由中国国家标准总局1980年发布,1981年5月1日开始实施的一套国家标准,标准号是GB 2312—1980。
信息交换用,这是交换码。
交换码是指用于交换文件所使用的编码。
对于计算机而言,不同的系统有可能使用不同的内码。但如果不同系统间要交换文件,则会发生乱码现象。解决方法则为,在交换文件前,文件提供者先将由内码形式储存的文件转换成交换码形式再做交换。在接收文件后,文件接收者再由交换码转成内码。
为了方便起见,许多系统的内码则直接使用交换码,如ASCII广为各种系统所使用。
对统一码系统而言,UTF-8、UTF-16、UTF-32皆可说是一种交换码。
鲜有系统或软件使用中文标准交换码做为内码,甚至在交换交件时也不会转成此交换码。
拼音码,这是一种输入法编码。输入码都是属于外码。
机内码,
根据国标码的规定,每一个汉字都有了确定的二进制代码,但是这个代码在计算机内部处理时会与ASCII码发生冲突,为解决这个问题,把国标码的每一个字节的首位上加1(128D=80H)。由于ASCII码只用7位,所以,这个首位上的“1”就可以作为识别汉字代码的标志,计算机在处理到首位是“1”的代码时把它理解为是汉字的信息,在处理到首位是“0”的代码时把它理解为是ASCII码。经过这样处理后的国标码就是机内码。
汉字的机内码、国际码和区位码之间的关系是:
(汉字机内码前两位)H=(国标码前两位)H+80H=(区码)H+A0H
(汉字机内码后两位)H=(国标码后两位)H+80H=(位码)H+A0H
字形码
为了将汉字在显示器或打印机上输出,把汉字按图形符号设计成点阵图,就得到了相应的点阵代码(字形码)。
用于显示的字库叫显示字库。显示一个汉字一般采用16×16点阵或24×24点阵或48×48点阵。已知汉字点阵的大小,可以计算出存储一个汉字所需占用的字节空间。
例:用16×16点阵表示一个汉字,就是将每个汉字用16行,每行16个点表示,一个点需要1位二进制代码,16个点需用16位二进制代码(即2个字节),共16行,所以需要16行×2字节/行=32字节,即16×16点阵表示一个汉字,字形码需用32字节。
即:字节数=点阵行数×(点阵列数/8)
用于打印的字库叫打印字库,其中的汉字比显示字库多,而且工作时也不像显示字库需调入内存。
全部汉字字形码的集合叫汉字字库。汉字库可分为软字库和硬字库。软字库以文件的形式存放在硬盘上,现多用这种方式,硬字库则将字库固化在一个单独的存储芯片中,再和其它必要的器件组成接口卡,插接在计算机上,通常称为汉卡。
可以这样理解,为在计算机内表示汉字而统一的编码方式形成汉字编码叫内码,内码是惟一的。为方便汉字输入而形成的汉字编码为输入码,属于汉字的外码,输入码因编码方式不同而不同,是多种多样的。为显示和打印输出汉字而形成的汉字编码为字形码,计算机通过汉字内码在字模库中找出汉字的字形码,实现其转换。
汉字国标码是什么?
为适应计算机处理汉字信息的需要,我国于1981年发布了《信息处理交换用汉字编码字符集 基本集》GB2312-80
GB2312将代码表分为94个区,对应第一字节;每个区94个位,对应第二字节,两个字节的值分别为区号值和位号值加32(2OH),因此也称为区位码。01-09区为符号、数字区,16-87区为汉字区,10-15区、88-94区是有待进一步标准化的空白区。GB2312将收录的汉字分成两级:第一级是常用汉字计 3755个,置于16-55区,按汉语拼音字母/笔形顺序排列;第二级汉字是次常用汉字计3008个,置于56-87区,按部首/笔画顺序排列。故而 GB2312最多能表示6763个汉字
汉字系统对每个汉字规定了输入计算机的代码,即汉字的外部码,键盘输入汉字是输入汉字的外部码。计算机为了识别汉字,要把汉字的外部码转换成汉字的内部码,以便进行处理和存储。为了将汉字以点阵的形式输出,还要将汉字的内部码转换为汉字的字形码,确定一个汉字的点阵。并且,在计算机和其它系统或设备需要信息、数据交流时还必须采用交换码。 (1) 外部码 外部码是计算机输入汉字的代码,代表某一个汉字的一组键盘符号。外部码也叫汉字输入码。为了建立友好的用户界面,输入码的规则必须简单清晰、直观易学、容易记亿、操作方便、码位短、输入速度快、重码少,既符合初学者的学习,又能满足专业输入者的要求,便于盲打。汉字的输入方法不同,同一个汉字的外码可能不一样。人们根据汉字的属性(汉字字量、字形、字音、使用频度)提出了数百种汉字外码的编码方案。由于用户不同,用途不同,各自喜爱的编码方式也不尽相同,故对用什么编码方案不能强求统一。例如拼音码和五笔字型比较受一般用户的欢迎。 (2) 内部码 汉字内部码亦称为汉字内码或汉字机内码。计算机处理汉字,实际上是处理汉字的代码。当计算机输入外部码时,通常要转成内部码,才能进行存储、运算、传送。一般用二个字节表示一个汉字的内码。内部码经常是用汉字在字库中的物理位置表示,如汉字在字库中的序号或汉字在字库中的存储位置表示。注意一般情况下,汉字的内部码不能与西文字符编码(ACSII码、EBCDIC码等)发生冲突,并容易区分汉字与西文字符;尽可能占用少的字节表示尽可能多的汉字;与标准交换码兼容(与交换码有尽可能简单明确的对应关系;运算时不产生二义性和不确定性)。 除了二字节汉字内部码外,还有三字节内部码、四字节内部码、带引导码的汉字内部码、带符号的汉字内部码、带括号的汉字内部码等。 (3) 交换码 当计算机之间或与终端之间进行信息交换时,要求它们之间传送的汉字代码信息完全一致,国家规定了信息交换用的标准汉字交换码"GB312-80信息交换用汉字编码字符集(基本集)",即国标码。国标码共收集了7445个图形字符,其中汉字6763个,一般符号、数字、拉丁字母、希腊字母、汉语拼音等709个。 (4) 汉字输出码 又称汉字字形码或汉字发生器的编码。为输出汉字,对汉字字形经过点阵的数字化后的一串二进制数称为汉字输出码。
汉字内部码:汉字在计算机内的编码(简称内码)
ASCII码用1个字节(最左边位为0)表示1个英文字符
汉字用两个字节(共16位二进制数编码)表示, 两字节首位都是“1” ,这种汉字编码最多可以表示 27×27=128×128=16384个汉字
字型码是一些汉字输入软件所定义的汉字编码规则,是把汉字抽象为一些字根(字型)组合出来的,根据书写规则编码。
问题一:什么是汉字国标码!! 每个汉字有个二进制编码,叫汉字国标码。
在我国汉字代码标准GB2312-80中有6763个常用汉字规定了二进制编码。
每个汉字使用2个字节。
GB2312-80 GB2312将代码表分为94个区,对应第一字节;每个区94个位,对应第二字节,两个字节的值分别为区号值和位号值加32(2OH),因此也称为区位码。01-09区为符号、数字区,16-87区为汉字区,10-15区、88-94区是有待进一步标准化的空白区。GB2312将收录的汉字分成两级:第一级是常用汉字计 3755个,置于16-55区,按汉语拼音字母/笔形顺序排列;第二级汉字是次常用汉字计3008个,置于56-87区,按部首/笔画顺序排列。故而 GB2312最多能表示6763个汉字。
问题二:国标码是什么意思? GB,国标码:中文内码之一,此码代表中文简体字,为中国大陆广泛使用。
所谓“国标码”,是指国家标准汉字编码。一般是指国家标准局1981年发布的《信息交换用汉字编码字符集(基本集)》,简称GB-2312。在这个集中,收进汉字6763个,其中一级汉字3755个,二级汉字3008个。一级汉字为常用字,按拼音顺序排列,二级汉字为次常用字,按部首排列。
问题三:国标码也称为汉字的什么码 交换码
问题四:国标码51582540是代表什么意思 50分 GB,国标码:中文内码之一,此码代表中文简体字,为中国大陆广泛使用。
所谓“国标码”,是指国家标准汉字编码。一般是指国家标准局1981年发布的《信息交换用汉字编码字符集(基本集)》,简称GB-2312。在这个集中,收进汉字6763个,其中一级汉字3755个,二级汉字3008个。一级汉字为常用字,按拼音顺序排列,二级汉字为次常用字,按部首排列。
问题五:一汉字国标码是5E38H,其内码是什么,怎么算 区位码、国标码与机内码的转换关系 方法: (1)区位码先转换成十六进制数表示 (2)(区位码的十六进制表示)+2020H=国标码; (3)国标码+8080H=机内码 举例:以汉字“大”为例,“大”字的区内码为2083 解:1、区号为20,位号为83 2、将区位...
问题六:什么是汉字机内码和汉字国标码?
问题七:什么是国标码 1.汉字信息的编码知识
⑴国标码:是指我国1981年公布的“中华人民共和国国家标准信息交换汉字编码”,代号为“GB2312-80”。由连续的两个字节组成。
2.机内码:在计算机内表耽汉字的代码是汉字机内码,汉字机内码由国标码演化而来,把表示国标码的两个字节的最高位分别加“1”,就变成汉字机内码
3.输入码: 汉字输入码是指直接从键盘输入的各种汉字输入方法的编码,属于外码。
4.字型点阵码:用点阵方式来构造汉字字型,然后存储在计算机内,构成汉字字模库。目的是为了能显示和打印汉字。
编码的转换举例
汉字 区位码 16进制 国标码 机内码
文 4636 2E24H 4E44H CEC4H
“文”的区位码为4636,区码和位码分别用16进制表示即为“2E24H”, 0010 1110 0010 0100
转换成国标码“4E44H”,0100 1110 0100 0100
机内码为“CEC4H”, 1100 1110 1100 0100
回答时间:2006-09-12 11:50:48
计算机只识别由0、1组成的代码,ASCII码是英文信息处理的标准编码,汉字信息处理也必须有一个统一的标准编码。我国国家标准局于1981年5月颁布了《信息交换用汉字编码字符集――基本集》,代号为GB2312-80,共对6763个汉字和682个图形字符进行了编码,其编码原则为:汉字用两个字节表示,每个字节用七位码(高位为0),;国家标准将汉字和图形符号排列在一个94行94列的二维代码表中,;每两个字节分别用两位十进制编码,前字节的编码称为区码,后字节的编码称为位码,此即区位码,;如“保”字在二维代码表中处于17区第3位,区位码即为“1703 ”。
国标码并不等于区位码,它是由区位码稍作转换得到,其转换方法为:先将十进制区码和位码转换为十六进制的区码和位码,;这样就得了一个与国标码有一个相对位置差的代码,;再将这个代码的第一个字节和第二个字节分别加上20H,就得到国标码。如:“保”字的国标码为3123H,它是经过下面的转换得到的:1703D->1103H->+20H->3123H。
国标码是汉字信息交换的标准编码,但因其前后字节的最高位为0,与ASCII码发生冲突,如“保”字,国标码为31H和23H,而西文字符“1”和“#”的SCII也为31H和23H,现假如内存中有两个字节为31H和23H,;这到底是一个汉字,还是两个西文字符“1”;和“#”?于是就出现了二义性,显然,国标码是不可能在计算机内部直接采用的,于是,;汉字的机内码采用变形国标码,其变换方法为:将国标码的每个字节都加上128,即将两个字节的最高位由0改1,其余7位不变,如:由上面我们知道,“保”字的国标码为3123H,前字节为00110001B,后字节为00100011B,高位改1为10110001B和10100011B 即为B1A3H,因此,字的机内码就是B1A3H;。