博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python 处理抓取网页乱码
阅读量:5215 次
发布时间:2019-06-14

本文共 562 字,大约阅读时间需要 1 分钟。

python 处理抓取网页乱码问题一招鲜

 

相信用python的人一定在抓取网页时,被编码问题弄晕过一阵

前几天写了一个测试网页的小脚本,并查找是否包含指定的信息。

在html = urllib2.open(url).read()  时,打印到控制台始终出现乱码。

一般的解决办法就是html.decode('utf-8').encode('gb2312'),不过这个即使用了,也没能解决我的问题

这里有两个问题,第一个你要知道网页的编码格式是utf-8     第二你得确定你的系统是gb2312的,能不能主动获取网页的编码格式,并主动获取系统编码格式,像这样

网页编码 = 获取网页编码

系统编码 = 获取系统编码

html.decode(网页编码).encode(系统编码)  即使我不知道网页编码,系统编码,只要双方能转 ,就行。

网页编码 = re.complier('正则获取meta里的编码格式')

系统编码 =  sys.getfilesystemencoding()  ########关键的关键

html.decode(网页编码).encode(系统编码)   现在打印,一切正常了。我才不管系统什么编码,只要你能转。

转载于:https://www.cnblogs.com/shijiaoyun/p/4460040.html

你可能感兴趣的文章
[转载]宇宙文明等级的划分标准
查看>>
Jmeter的log输出控制
查看>>
《代码阅读方法与实现》阅读笔记一
查看>>
ActiveMQ配置使用 for CentOS6
查看>>
解决 sublime text3 运行python文件无法input的问题
查看>>
javascript面相对象编程,封装与继承
查看>>
字符的相加输出
查看>>
bitnami openedx安装的各种坑及痛苦经历
查看>>
用CMake设置Visual Studio工程中第三方库
查看>>
Python Django连接(听明白了是连接不是创建!)Mysql已存在的数据库
查看>>
PYTHON 基本运算符及编码发展简史
查看>>
poj 1741 树的分治
查看>>
最长递增子序列的数量 51Nod - 1376
查看>>
Ubuntu17.04下安装vmware虚拟机
查看>>
软件开发方法
查看>>
数据结构&算法实践—【排序|插入排序】插入排序
查看>>
linux下配置固定ip
查看>>
MsSql 游标 修改字段两个表关联 表向另个表插入记录
查看>>
Atlas命名空间Sys.Data下控件介绍——DataColumn,DataRow和DataTable
查看>>
一个简单驱动的makefile
查看>>