您现在的位置:首页 > 问答 > 图文传播3000问 > Q:何谓万国码(unicode)?

Q:何谓万国码(unicode)?

《图文传播3000问》 更新日期:2014-02-06

此为一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行转换、处理的要求。1990年开始研发,1994年正式公布。随着计算机工作能力的增强,unicode也在面世以来的十多年里得以普及。最新版本的unicode 是2005年3月31日推出的unicode 4.1.0。另外,5.0 Beta已于2005年12月12日推出,以供各会员评价。unicode的编码方式与ISO 10646的通用字符集(Universal Character Set,UCS)概念相对应,目前用于实用的unicode版本对应于UCS-2,使用16位的编码空间。也就是每个字符占用2个字节。这样理论上一共最多可以表示216个字符。基本满足各种语言的使用。实际上目前版本的unicode尚未填充满这16位编码,保留了大量空间作为特殊使用或将来扩展。上述16位unicode字符构成基本多文种平面(Basic Multilingual Plane, 简称 BMP)。最新(但未实际广泛使用)的unicode版本定义了16个辅助平面,两者合起来至少需要占据21位的编码空间,比3字节略少。但事实上辅助平面字符仍然占用4字节编码空间,与UCS-4保持一致。未来版本会扩充到ISO 10646-1实现级别3,即涵盖UCS-4的所有字符。UCS-4 是一个更大的尚未填充完全的31位字符集,加上恒为0的首位,共需占据32位,即4字节。理论上最多能表示231个字符,完全可以涵盖一切语言所用的符号。

发表评论

电子邮件地址不会被公开。 必填项已用*标注