字符串转码转换编码（字符串转unicode编码方法）

C++编程来源：网络编辑：小编更新时间：2025-05-02 20:27:09 浏览量：96

内容为集体学习心得，不能对准确性做过多保障，谬误之处还望指导。

有时候咱们会遇到一些蛰符串，咱们晓得这些是Unicode码，一组啑字符串对应了一个Unicode字符。那这些编码字符的理论二进制存储格局是怎么呢？
咱们晓得Unicode编码能够出现世界上大部分的文字内容，而在其最通用的一种编码方式UTF-8
)下,单字符的存储长度为1-4字节（可变），这种设计的由来和长处就不多讲了，这里次要说说看到的二进制的换算形式。
在UTF-8编码格局的java代码下，对“测试”两个字打印其字节和字符后果如下：

而通过char.ToHexString失去的

6d4b 8bd5

是这两个字的Unicode编码

这两者是怎么关联上的呢?

通过UTF-8的百科页面有如下介绍：

blockquote>

UTF-8编码字节含意

对于UTF-8编码中的任意字节B，如果B的第一位为0，则B独立的示意一个字符(ASCII码)；
如果B的第一位为1，第二位为0，则B为一个多字节字符中的一个字节(非ASCII字符)；
如果B的前两位为1，第三位为0，则B为两个字节示意的字符中的第一个字节；
如果B的前三位为1，第四位为0，则B为三个字节示意的字符中的第一个字节；
如果B的前四位为1，第五位为0，则B为四个字节示意的字符中的第一个字节；

/blockquote>

因而，对于下面失去的二进制串，每8位中的后面局部都是用来做标记的，1110结尾表明须要3个字节来形容以后字符，并且以后字节为3字节中的第一局部，前面的字节应用10结尾表明本人是以后字符编码串的前面局部。

把前三字节这些标记为去掉再合并，失去 0110 001011，而“

测

”字的16进制Unicode编码转为二进制，正是0110 1101 0100 1011。

这样做的长处很显著，扩大不便（看起来能反对到8字节编码呢），编码构造去掉了二进制的标记位，减小体积更易于数据传输。1字节的UTF-8码还残缺兼容了ASCII码，所以UTF-8能够说应该是大部分场景下的最优抉择了。

hr />

br>

到此这篇字符串转码转换编码（字符串转unicode编码方法）的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章，希望大家都能在编程的领域有一番成就！

上一篇：安卓tcpdump工具（安卓tcpdump抓包）

下一篇：字符串转换为map（字符串转换为ascii码）

版权声明：
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符，请将相关资料发送至xkadmin@xkablog.com进行投诉反馈，一经查实，立即处理！

转载请注明出处，原文链接：https://www.xkablog.com/cjjbc/45905.html

UTF-8编码字节含意

相关文章：