当前位置：Gxlcms > Python > python处理抓取中文编码和判断编码

python处理抓取中文编码和判断编码

时间：2021-07-01 10:21:17 帮助过：82人阅读

在开发自用爬虫过程中，有的网页是utf-8，有的是gb2312,有的是gbk，如果不加处理，采集到的都是乱码，解决的方法是将html处理成统一的utf-8编码

版本python2.7

#coding:utf-8
import chardet
#抓取网页html
line = "http://www.pythontab.com"
html_1 = urllib2.urlopen(line,timeout=120).read()
encoding_dict = chardet.detect(html_1)
print encoding
web_encoding = encoding_dict['encoding']
#处理，整个html就不会是乱码。
if web_encoding == 'utf-8' or web_encoding == 'UTF-8':
html = html_1
else :
html = html_1.decode('gbk','ignore').encode('utf-8')

< 上一篇
面向对象深入
下一篇 >
Pythonstruct（字节流，组包拆包实现）模块详解

人气教程排行

384次 1 对Python2.7pandas中的read_excel详解
383次 2 Python实现定时弹窗提醒
383次 3 python爬虫入门（3）--利用requests构建知乎API
382次 4 python如何爬取搜狗微信公众号文章永久链接的思路解析
381次 5 python字典的键可以相同吗
381次 6 python是一种面向什么的语言？
381次 7 python通过pil为png图片填充上背景颜色的方法
380次 8 python语言的编程模式有什么
380次 9 使用python获取进程pid号的方法
380次 10 Python中如何解决无限循环的问题
378次 11 怎么解决pip不是内部或外部命令
378次 12 python中def是什么意思
376次 13 对numpy中数组元素的统一赋值实例
374次 14 python的选择语句是什么语句
374次 15 Python中构造方法的解析（附示例）
373次 16 关于python中引入导入与自定义模块以及外部文件的实例分享
372次 17 python如何在不同类之间调用方法
372次 18 python中的【//】是什么运算符号
371次 19 python中╲t是什么
371次 20 python同时给多个变量赋值