字符集编码的简介说明
下文笔者讲述字符集编码的相关简介说明,如下所示
字符编码指什么呢?
字符(Character)是文字与符号的总称 包括文字、图形符号、数学符号等 一组抽象字符的集合就是字符集(Charset)。 常用到字符集有:ASCII,ISO-8859-1,GB2312,GBK,GB18030,Unicode
各种编码集有哪些特点呢?
ASCII: ASCII(American Standard Code for Information Interchange,美国信息交换标准代码) 是基于英文大小写,阿拉伯数字和英文符号的一套电脑编码系统 包含内容:控制字符(回车,退格,换行键),可显示式字符(英文大小写,阿拉伯数字和西文符号) 技术特征:7位(bits)表示一个字符,共128字符 不足之处:只能表示英语,像西欧,东亚和拉美地区的语言符号无法表示。 ISO-8859-1集扩展字符集: 它以ASCII为基础(完全兼容ASCII) 在空置的0xA0-0xFF的范围内, 加入96个字母及符号, 以供使用附加符号的拉丁字母语言使用 曾推出过 ISO 8859-1:1987 版。 包含内容:ASCII编码包含的,部分西欧使用的语言。 技术特征:8位表示一个字符。即可表示256个字符。 GB2312: 由原中国国家标准总局发布 收录简化汉字及一般符号、序号、数字、拉丁字母、日文假名、希腊字母、俄文字母、汉语拼音符号、汉语注音字母,共 7445 个图形字符 其中包括6763个汉字 其中一级汉字3755个 二级汉字3008个 还包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。 GBK: 因为GB2312中不包含生僻字,因此又创建了另外一套包含生僻字且完全兼容GB2312的字符集。和GB2312一样采用2个字节表示一个字符 GB18030: GBK中也没有包含少数民族的文字,因此中国又新增了GB18030编码,理论上而言这是最全的汉字字符集编码。 与UTF-8相同,采用多字节编码,每个字可以由1个、2个或4个字节组成。 Unicode: 全球统一字符集编码,采用4个字节来表示一个字符,理论上而言能包含所有国家的所有字符。但对于欧美国家,他们只需要一个字节就能表示一个字符,因此对于一个用Unicode存储的文件而言,文件大小大3倍。这是十分浪费存储空间的,于是,就出现了UTF的编码方式。如:UTF-8,UTF-16,UTF-32 注意:Unicode是编码规范,而UTF-8或者UTF-16是Unicode编码规范的实现方式。 UTF-8: UTF-8(8-bit Unicode Transformation Format) 是一种针对Unicode的可变长度字符编码(定长码),也是一种前缀码。 它可以用来表示Unicode标准中的任何字符 且其编码中的第一个字节仍与ASCII兼容 这使得原来处理ASCII字符的软件无须或只须做少部份修改 即可继续使用 因此,它逐渐成为电子邮件、网页及其他存储或传送文字的应用中,优先采用的编码。 UTF-8使用一至四个字节为每个字符编码: 128个US-ASCII字符只需一个字节编码(Unicode范围由U+0000至U+007F)。 带有附加符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文及它拿字母则需要二个字节编码(Unicode范围由U+0080至U+07FF)。 其他基本多文种平面(BMP)中的字符(这包含了大部分常用字)使用三个字节编码。 其他极少使用的Unicode辅助平面的字符使用四字节编码。
版权声明
本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。