当前位置:Gxlcms > 数据库问题 > MySQL的字符集和字符编码笔记

MySQL的字符集和字符编码笔记

时间:2021-07-01 10:21:17 帮助过:3人阅读

深入的请参考卢sir的博客:

http://cenalulu.github.io/linux/character-encoding/

http://cenalulu.github.io/mysql/mysql-mojibake/


GBK 和UTF8的实际在系统里面的存放方式:

 

1、GBK:

> SELECT hex(convert(‘你好‘ using gbk));

+----------------------------------+

| hex(convert(‘你好‘ using gbk))   |

|----------------------------------|

| C4E3BAC3                |

+----------------------------------+

 

GBK字符集是按照4个长度来分割的,因此得出对应关系:

你 --> C4E3

好 --> BAC3

 

2、UTF-8:

> SELECT hex(convert(‘你好‘ using utf8));

+-----------------------------------+

| hex(convert(‘你好‘ using utf8))   |

|-----------------------------------|

| E4BDA0E5A5BD           |

+-----------------------------------+

 

GBK字符集是按照4个长度来分割的,因此得出对应关系:

你 --> E4BDA0

好 --> E5A5BD

 

这样我们就能发现不同的地方了。假如我们用的是UTF-8存进去的"你好"(对应的底层存储为:E4BDA0E5A5BD),但是使用GBK的方式来读取的话,GBK会对E4BDA0E5A5BD按照每4个bit长度切分,最终切分成E4BD A0E5 A5BD 这个样子。

(如下)

> SELECT CONVERT( unhex(‘E4BDA0E5A5BD‘) USING GBK);

+-------------------------------------------+

| CONVERT( unhex(‘E4BDA0E5A5BD‘) USING GBK) |

+-------------------------------------------+

| 浣犲ソ                                    |   ---> 采用GBK的方式读出来就成乱码了

+-------------------------------------------+

> SELECT hex(convert(‘浣‘ using gbk));

+-------------------------------+

| hex(convert(‘浣‘ using gbk)) |

+-------------------------------+

| E4BD                         |

+-------------------------------+

> SELECT hex(convert(‘犲‘ using gbk));

+-------------------------------+

| hex(convert(‘犲‘ using gbk)) |

+-------------------------------+

| A0E5                         |

+-------------------------------+

> SELECT hex(convert(‘ソ‘ using gbk));

+-------------------------------+

| hex(convert(‘ソ‘ using gbk)) |

+-------------------------------+

| A5BD                         |

+-------------------------------+

 



如下例子:

创建2张表t1、t2

> create table t1 (a varchar(40)) charset=gbk;

> set names gbk;

> insert into t1 select ‘你好‘;

> SELECT hex(convert(‘你好‘ using gbk));    ---> GBK格式下,实际上底层存储是C4E3BAC3

+----------------------------------+

| hex(convert(‘你好‘ using gbk))   |

|----------------------------------|

| C4E3BAC3                |

+----------------------------------+

 

> create table t2 (a varchar(40)) charset=utf8;

> set names utf8;

> insert into t2 select ‘你好‘;

> SELECT hex(convert(‘你好‘ using utf8));   ---> UTF8格式下,实际上底层存储是E4BDA0E5A5BD

+-----------------------------------+

| hex(convert(‘你好‘ using utf8))   |

+-----------------------------------+

| E4BDA0E5A5BD              |

+-----------------------------------+

 

 

补充,将16进制的编码反推成UTF8编码的汉字:

> SELECT CONVERT( unhex(‘E4BDA0E5A5BD‘) USING utf8);

+--------------------------------------------+

| CONVERT( unhex(‘E4BDA0E5A5BD‘) USING utf8) |

+--------------------------------------------+

| 你好                                       |

+--------------------------------------------+


> SELECT CONVERT( unhex(‘E4BDA0E5A5BD‘) USING GBK);

+-------------------------------------------+

| CONVERT( unhex(‘E4BDA0E5A5BD‘) USING GBK) |

+-------------------------------------------+

| 浣犲ソ                                    |   ---> 采用GBK的方式读出来就成乱码了

+-------------------------------------------+


本文出自 “菜鸡” 博客,请务必保留此出处http://lee90.blog.51cto.com/10414478/1928024

MySQL的字符集和字符编码笔记

标签:mysql字符乱码

人气教程排行