当前位置:网站首页 > C++编程 > 正文

字符串转码转换编码(字符串转unicode编码方法)



内容为集体学习心得,不能对准确性做过多保障,谬误之处还望指导。

  有时候咱们会遇到一些蛰符串,咱们晓得这些是Unicode码,一组啑字符串对应了一个Unicode字符。那这些编码字符的理论二进制存储格局是怎么呢?
  咱们晓得Unicode编码能够出现世界上大部分的文字内容,而在其最通用的一种编码方式UTF-8
)下,单字符的存储长度为1-4字节(可变),这种设计的由来和长处就不多讲了,这里次要说说看到的二进制的换算形式。
  在UTF-8编码格局的java代码下,对“测试”两个字打印其字节和字符后果如下:


而通过char.ToHexString失去的

6d4b 8bd5

是这两个字的Unicode编码


这两者是怎么关联上的呢?


通过UTF-8的百科页面有如下介绍:

blockquote>

UTF-8编码字节含意
  • 对于UTF-8编码中的任意字节B,如果B的第一位为0,则B独立的示意一个字符(ASCII码);
  • 如果B的第一位为1,第二位为0,则B为一个多字节字符中的一个字节(非ASCII字符);
  • 如果B的前两位为1,第三位为0,则B为两个字节示意的字符中的第一个字节;
  • 如果B的前三位为1,第四位为0,则B为三个字节示意的字符中的第一个字节;
  • 如果B的前四位为1,第五位为0,则B为四个字节示意的字符中的第一个字节;

/blockquote>

因而,对于下面失去的二进制串,每8位中的后面局部都是用来做标记的,1110结尾表明须要3个字节来形容以后字符,并且以后字节为3字节中的第一局部,前面的字节应用10结尾表明本人是以后字符编码串的前面局部。


把前三字节这些标记为去掉再合并,失去 0110 001011,而“

”字的16进制Unicode编码转为二进制,正是0110 1101 0100 1011。


这样做的长处很显著,扩大不便(看起来能反对到8字节编码呢),编码构造去掉了二进制的标记位,减小体积更易于数据传输。1字节的UTF-8码还残缺兼容了ASCII码,所以UTF-8能够说应该是大部分场景下的最优抉择了。

hr />

br>

到此这篇字符串转码转换编码(字符串转unicode编码方法)的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章,希望大家都能在编程的领域有一番成就!

版权声明


相关文章:

  • autoexec宏怎么创建(名称为autoexec的宏有什么特点)2025-05-02 20:27:09
  • cnns(cnn是什么网站)2025-05-02 20:27:09
  • pointnet代码(pointcnn代码)2025-05-02 20:27:09
  • Nvim 转码(ncm转码 安卓)2025-05-02 20:27:09
  • can通讯接口(can通信接口)2025-05-02 20:27:09
  • kubelet功能(kubelet csi)2025-05-02 20:27:09
  • can报文解析工具(cantest报文解析)2025-05-02 20:27:09
  • CIF贸易术语解释(CIF贸易术语解释)2025-05-02 20:27:09
  • console线哪个牌子好(console线哪个牌子好兼容性好)2025-05-02 20:27:09
  • c++ 条件变量 wait_for(c++ 条件变量和读写锁)2025-05-02 20:27:09
  • 全屏图片