字符集编码的简介说明

戚薇 Java教程 发布时间:2022-07-20 22:13:54 阅读数:19157 1
下文笔者讲述字符集编码的相关简介说明,如下所示

字符编码指什么呢?

 字符(Character)是文字与符号的总称
  包括文字、图形符号、数学符号等
  一组抽象字符的集合就是字符集(Charset)。
    常用到字符集有:ASCII,ISO-8859-1,GB2312,GBK,GB18030,Unicode

各种编码集有哪些特点呢?

ASCII:
   ASCII(American Standard Code for Information Interchange,美国信息交换标准代码)
     是基于英文大小写,阿拉伯数字和英文符号的一套电脑编码系统 
     
	 包含内容:控制字符(回车,退格,换行键),可显示式字符(英文大小写,阿拉伯数字和西文符号)
     技术特征:7位(bits)表示一个字符,共128字符 
     不足之处:只能表示英语,像西欧,东亚和拉美地区的语言符号无法表示。

ISO-8859-1集扩展字符集:
    它以ASCII为基础(完全兼容ASCII)
	  在空置的0xA0-0xFF的范围内,
	   加入96个字母及符号,
	   以供使用附加符号的拉丁字母语言使用
       曾推出过 ISO 8859-1:1987 版。
    包含内容:ASCII编码包含的,部分西欧使用的语言。
    技术特征:8位表示一个字符。即可表示256个字符。

GB2312:
    由原中国国家标准总局发布
   收录简化汉字及一般符号、序号、数字、拉丁字母、日文假名、希腊字母、俄文字母、汉语拼音符号、汉语注音字母,共 7445 个图形字符
   其中包括6763个汉字
    其中一级汉字3755个
     二级汉字3008个
     还包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。

GBK:
    因为GB2312中不包含生僻字,因此又创建了另外一套包含生僻字且完全兼容GB2312的字符集。和GB2312一样采用2个字节表示一个字符

GB18030:
   GBK中也没有包含少数民族的文字,因此中国又新增了GB18030编码,理论上而言这是最全的汉字字符集编码。
   与UTF-8相同,采用多字节编码,每个字可以由1个、2个或4个字节组成。

Unicode:
   全球统一字符集编码,采用4个字节来表示一个字符,理论上而言能包含所有国家的所有字符。但对于欧美国家,他们只需要一个字节就能表示一个字符,因此对于一个用Unicode存储的文件而言,文件大小大3倍。这是十分浪费存储空间的,于是,就出现了UTF的编码方式。如:UTF-8,UTF-16,UTF-32

注意:Unicode是编码规范,而UTF-8或者UTF-16是Unicode编码规范的实现方式。

UTF-8:
   UTF-8(8-bit Unicode Transformation Format)
     是一种针对Unicode的可变长度字符编码(定长码),也是一种前缀码。
     它可以用来表示Unicode标准中的任何字符
     且其编码中的第一个字节仍与ASCII兼容
     这使得原来处理ASCII字符的软件无须或只须做少部份修改
   即可继续使用
     因此,它逐渐成为电子邮件、网页及其他存储或传送文字的应用中,优先采用的编码。

UTF-8使用一至四个字节为每个字符编码:
	128个US-ASCII字符只需一个字节编码(Unicode范围由U+0000至U+007F)。
	带有附加符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文及它拿字母则需要二个字节编码(Unicode范围由U+0080至U+07FF)。
	其他基本多文种平面(BMP)中的字符(这包含了大部分常用字)使用三个字节编码。
	其他极少使用的Unicode辅助平面的字符使用四字节编码。
版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

本文链接: https://www.Java265.com/JavaCourse/202207/4011.html

最近发表

热门文章

好文推荐

Java265.com

https://www.java265.com

站长统计|粤ICP备14097017号-3

Powered By Java265.com信息维护小组

使用手机扫描二维码

关注我们看更多资讯

java爱好者