时间:2021-07-01 10:21:17 帮助过:6人阅读
本文介绍下,在使用php的字符串截取函数substr,截取中文字符时出现乱码的解决方法。有需要的朋友参考下吧。
php字符串截取函数substr: string substr ( string $string , int $start [, int $length ] ) 返回string中从start位置开始长度为length的字符串 substr函数在截取字符,是按字节来截取的,中文字符在GB2312编码时为2个字节,utf-8编码时为3个字节,所以截取指定长度的字符串时如果截断了汉字,那么返回的结果显示出来便会出现乱码。 下面提供二个解决方法,供大家参考。 1,改用mb_substr函数 string mb_substr ( string $str , int $start [, int $length [, string $encoding ]] ) 类似substr()函数,只是计数按字符数来计,保证字符安全 使用mb_substr()函数可保证不会出现乱码。 缺点:长度统计变成了字符数统计,而不是按字节数统计。用于显示时,同样长度的中文结果和英文结果会出现较大的显示长度的差别。 2,自建函数增强substr功能 中文字符按2个长度单位来计算,使得中英文混用环境下字符串截取结果最后的显示长度接近; 舍弃最后一个不完整字符,保证不会出现显示上的乱码;且兼容了中文字符常用的utf-8编码和GB2312编码,有很好的通用性。 完整代码如下(用到了strtolower函数): $length) { //截断字符 $wordscut = ''; if(strtolower($encoding) == 'utf-8') { //utf8编码 $n = 0; $tn = 0; $noc = 0; while ($n < strlen($string)) { $t = ord($string[$n]); if($t == 9 || $t == 10 || (32 <= $t && $t <= 126)) { $tn = 1; $n++; $noc++; } elseif(194 <= $t && $t <= 223) { $tn = 2; $n += 2; $noc += 2; } elseif(224 <= $t && $t < 239) { $tn = 3; $n += 3; $noc += 2; } elseif(240 <= $t && $t <= 247) { $tn = 4; $n += 4; $noc += 2; } elseif(248 <= $t && $t <= 251) { $tn = 5; $n += 5; $noc += 2; } elseif($t == 252 || $t == 253) { $tn = 6; $n += 6; $noc += 2; } else { $n++; } if ($noc >= $length) { break; } } if ($noc > $length) { $n -= $tn; } $wordscut = substr($string, 0, $n); } else { for($i = 0; $i < $length - 1; $i++) { if(ord($string[$i]) > 127) { $wordscut .= $string[$i].$string[$i + 1]; $i++; } else { $wordscut .= $string[$i]; } } } $string = $wordscut; } return trim($string); } // 示例 echo getstr("0一二三四五六七",1).' |