当前位置:Gxlcms >
PHP教程 >
curl和file_get_contents抓取网页乱码的解决之道
curl和file_get_contents抓取网页乱码的解决之道
时间:2021-07-01 10:21:17
帮助过:31人阅读
今天用 curl_init 函数抓取搜狐的网页时,发现采集的网页时乱码,经过分析发现原来是服务器开启了gzip压缩功能。只要往函数 curl_setopt 添加多个选项 CURLOPT_ENCODING 解析 gzip 就可以正确解码了。
还有如果抓取的网页时 GBK 编码,但是脚本确是 utf-8 编码,还得把抓取的网页再用函数 mb_convert_encoding 转换下。