当前位置：Gxlcms > PHP教程 > 由编码识别遇到有关问题，思考utf8编码正则表达式（php版本）

由编码识别遇到有关问题，思考utf8编码正则表达式（php版本）

时间：2021-07-01 10:21:17 帮助过：6人阅读

由编码识别遇到问题，思考utf8编码正则表达式（php版本）

起因：

最近遇到一件事情，一个接口能够接收传入编码可能是utf-8,gbk 两种。做过编码方面转换的同学应该知道的，是什么编码不会在字符串里面有什么标记位的。不过utf-8编码有特殊性，因此可以通过正则表达式来检查。只要发现是utf-8编码。就转换，不是utf-8就当gbk处理。编码一些常见问题可以查看：由web程序出现乱码开始挖掘(Bom头、字符集与乱码）

行动：

知道这个原理，马上领任务，开始工作。想到php版本有个mbstring模块可以进行编码检测转换：
php//当前编码是gbk$str="中国";$aStrList=array($str,iconv('gbk','utf-8',$str));foreach ($aStrList as $v){	echo mb_convert_encoding($v,'gbk','utf-8,gbk'),"\r\n";}
?
运行结果：
 
?
两个不同编码的“中国”，用一个函数mb_convert_encoding就可以自动转换成gbk编码。首页，尝试用utf-8解码，如果出现问题，就会用gbk转码。看来问题解决了，哈哈，可以交差了……
?
问题：
发布后，平静了几天，突然接到反馈：有中文：”袁小”解码出错。⊙﹏⊙b汗 …… ,想……(难道php内置检测模块有问题，或是我哪里欠缺……)
 
⊙﹏⊙b汗……  看来果然有问题，查询手册：mbstring 模块编码检查，只是识别字符串部分编码，发现与某个字符集匹配上，就认为它属于那种编码。 这不属于它的bug,因为字符串本身没有编码信息标识，没有那个语言能够完全检测通过。 
?
问题：
能不能自己写一个检查正则表达式看下到底怎么样呢？要写正则表达式，首先须了解utf8编码规范，查看：http://zh.wikipedia.org/zh/UTF-8?
目前编码集合只有这样6个维度：php得到维度代码
php//得到utf8字编码各个维度的范围 echo base_convert('1111111',2,16),"\r\n";//维度1echo base_convert('10000000',2,16),base_convert('10111111',2,16),"\r\n";echo base_convert('11000000',2,16),base_convert('11011111',2,16),"\r\n";//维度2echo base_convert('11100000',2,16),base_convert('11101111',2,16),"\r\n";//维度3echo base_convert('11110000',2,16),base_convert('11110111',2,16),"\r\n";//维度4echo base_convert('11111000',2,16),base_convert('11111011',2,16),"\r\n";//维度5echo base_convert('11111100',2,16),base_convert('11111101',2,16),"\r\n";//维度6
运行结果：
通过上面6个维度得到得到对应的正则表达式：
[\x01-\x7f]|[\xc0-\xdf][\x80-\xbf]|[\xe0-\xef][\x80-\xbf]{2}|[\xf0-\xf7][\x80-\xbf]{3}|[\xf8-\xfb][\x80-\xbf]{4}|[\xfc-\xfd][\x80-\xbf]{5}
以上分别是各个维度范围
php//当前编码是gbk$str="袁";echo urlencode($str);echo is_utf8($str);function is_utf8($str){	///utf8编码正则检测函数	///copyright qq:8292669  http://www.cnblogs.com/chengmo	$re='/^([\x01-\x7f]|[\xc0-\xdf][\x80-\xbf]|[\xe0-\xef][\x80-\xbf]{2}|[\xf0-\xf7][\x80-\xbf]{3}|[\xf8-\xfb][\x80-\xbf]{4}|[\xfc-\xfd][\x80-\xbf]{5})+$/';	return preg_match($re,$str);}
上面执行结果返回为1，然后”袁“本身应该是gbk编码。看来上面函数还是不能彻底检查utf8编码。分析原因，从上面正则可以看到，utf8的6个维度对应字节长度从1-6字节。 而gbk是1-2个字节。因此他们之间会在1-2个字节长度地方检查出现重合。1个字节的时候gbk与utf8的 编码与字符对应关系都一样，但是2个字节时候，对应编码与字符各不相同。
?
通过查询gbk编码表：http://www.knowsky.com/resource/gb2312tbl.htm 进一步确认，范围会在：
[c0-df][a0-bf]  之内汉字都会有问题了。 如果纯这个范围的汉字组合为字符串就会出现判断不了情况。如果它与其它范围字符组合都可以正确的判断出来。
?
GBK与UTF8字符集重叠对应的字符是：（gbk编码表）
?
?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61

< 上一篇
ThinkPHP3.0使用分组后路径访问无效的解决办法

下一篇 >
ThinkPHP3.0运用百度ueditor的正确配置方法。

人气教程排行

174次 1 php如何获取跳转前的url

174次 2 php格林威治时间转换成当前时间的方法

174次 3 为什么php不能做大型系统？

174次 4 range函数怎么用

174次 5 php中计算页面加载时间几种方法总结_PHP教程

174次 6 求帮助，关于paypal支付返回值修改订单状态

174次 7 typecho怎么配置文章内容页?

174次 8 PhpStorm左侧structure不显示文件的方法列表是这么回事？

174次 9 查看PHP的环境变量_PHP

174次 10 PHP Primary script unknown 解决方法总结

174次 11 php的命名空间与自动加载实现方法

174次 12 解决laravel 出现ajax请求419(unknown status)的问题

173次 13 php 如何删除mysql记录

173次 14 PHP如何替换数组中的指定元素

173次 15 怎么去除字符串中非汉字、非字母、非数字的字符

173次 16 mysql如何一次执行多条SQL语句

173次 17 修改header里面的Connection为close解决方法

173次 18 PHP基于session.upload_progress 实现文件上传进度显示功能详解

173次 19 php5.6.x到php7.0.x特性小结

172次 20 php为什么会出现504错误

本站所有资源全部来源于网络，若本站发布的内容侵害到您的隐私或者利益，请联系我们删除！

登录

记住我的登录忘记密码？

登录

我已阅读用户协议及版权声明

注册