N107 信息编码表示

一、基本概念

编码

计算机要处理的数据除了数值数据以外,还有各类符号、图形、图像和声音等非数值数据。而计算机只能识别两个数字0,1。要使计算机能处理这些信息,首先必须要将各类信息转换成0与1表示的代码,这一过程称为编码。

数据

能被计算机接受和处理的符号的集合都称为数据。

比特

比特(Bit ——二进制位数)是指1位二进制的数码(即0或1).比特是计算机中表示信息的数据编码中的最小单位。

字节

字节表示被处理的一组连续的二进制数字。通常用8位二进制数字表示一个字节,即一个字节有8个比特组成。

字节是存储系统的最小存取单位。

字符的表示

字符是人与计算机交互过程中不可缺少的重要信息。要是计算机能处理、存储字符信息,首先必须用二进制0和1代码对字符进行编码。

ASCII编码

ASCII编码是由美国国家标准委员会制定的一种包括数字、字母、通用符号和控制符号在内的字符编码集,全称位美国国家信息交换标准代码(American Standard Code for Information Interchange)。AscII 码是一种7位二进制编码,能表示2^7=128种国际上最通用的西文字符,是目前计算机中,特别是微型计算机中使用最普遍的字符编码集。

ASCII编码包括4类最常用的字符。

  1. 数字“0”~“9”.ASCII编码的值分别为0110000B~0111001B,对应十六进制数为30H~39H。
  2. 26个英文字母。大写字母"A"~"Z"的ASCII编码值为41H~5AH,小写字母"a"~“z”的ASCII编码值为61H~7AH。
  3. 通用符号。如“+”“-”“=”“*”和“/”等共32个。
  4. 控制符号。如空格符和回车符等共34个。

ASCII码是一种7位编码,它存储时必须占全一个字节,也即占用8位:b7、b6、b5、b4、b3、b2、b1、b0,其中b7恒位0,其余几位为ASCII码值。

人们可以通过键盘输入和显示器显示不同的字符,但在计算机中,所有信息都是用二进制代码表示的。n位二进制代码能表示2^n个不同的字符,这些字符的不同的组合九克表示不同的信息。为使计算机使用的数据能共享和传递,必须对字符进行统一的编码。ASCII码和扩充的ASCII码中,吧二进制位最高位为0的数字都称为基本的ASCII码,其范围是0~127;把二进制最高位为1的数字都成为拓展的ASCII码,其范围是128~255。

内码和外码

内码

对于输入计算机的文本文件,机器是存储其相应的字符的ASCII码(用一个ASCII码存储一个字符需8个二进制位,即一个字节),这些可被计算机内部进行存储和运算使用的数字代码称内码。入输入字符“A",计算机将其转成内码65后存于内存。

外码

计算机与人进行交换的自行符号称为外码,如字符”A“的外码是”A“。

通常一个细纹字符栈一个字节(半角),一个中文字符占两个字节。

汉字信息编码

汉字交换码

汉字交换码是指不同的具有汉字处理功能的计算机系统之间在交换汉字信息时使用的代码标准。自国家标准GB2312-80公布以来,我国一直沿用该标准所规定的国际标准码作为统一的汉字信息交换码(GB5007-85图形字符代码)。

GB2312-80标准包括了6763个汉字,按其使用频率分为一级汉字3755个和二级汉字3008个。一级汉字按拼音顺序,二级汉字按部首排序。该标准还包括标点符号、数种西文字母、图形、数码等符号682个。

区位码的区码和位码均采用从01到94的十进制,国标码采用十六进制的21H到73H(数字后面加H表示其为十六进制数)。区位码和国标码的换算关系是:区码和位码分别加上十进制数32.如”国“字在表中的25行90列,其区位码为2590,国标码是397AH。

字形存储码

字形存储码是指计算机输出汉字(显示或打印)用的二进制信息,也称字模。通常,采用的数字化点阵字模。

一般的点阵规模有16 ×\times 16、24 ×\times 24等,每一个点在存储器中用一个二进制位(bit)存储。在16 ×\times 16的点阵中,需8 ×\times 32bit的存储空间,每8bit为1字节,所以,需32字节的存储空间。在相同点阵中,不管其壁画繁简,每个汉字所占的字节数相等。

为了节省存储空间,普遍采用字形数据压缩技术。所谓矢量汉字,是指用矢量方法将汉字点阵字模进行压缩后得到的汉字字形数字化信息。

非原创!