解决 Python print 输出文本显示 gbk 编码错误

2018-07-14 16:33:32 +08:00
 Cheez

前阵子想爬点东西,结果 sublime 3 一直提示错误UnicodeEncodeError: ‘ gbk ’ codec can ’ t encode character ‘\xa0 ’ in position,在网上一查,发现是 Windows 的控制台的问题。控制台的编码是 GBK,Python 是 UTF-8,造成了冲突。

下面给出三种解决方法:

第一种方法:直接替换出错的内容

url = 'https://zhuanlan.zhihu.com/p/39747259' 
print(requests.get(url).text.replace('\xa0', ' '))```

# 第二种方法:再解码

先用 GBK 编码,加个 ignore 丢弃错误的字符,然后再解码。

```import requests
url = 'https://zhuanlan.zhihu.com/p/39747259'
print(requests.get(url).text.encode('gbk', 'ignore').decode('gbk')```

# 第三种方法:修改控制台编码

新建一个 cmd.reg, 输入代码:

```Windows Registry Editor Version 5.00
[HKEY_CURRENT_USER\Console\%SystemRoot%_system32_cmd.exe]
"CodePage"=dword:0000fde9
"FontFamily"=dword:00000036
"FontWeight"=dword:00000190
"FaceName"="Consolas"
"ScreenBufferSize"=dword:232900d2
"WindowSize"=dword:002b00d2```

保存后运行。如果 Ctrl+B 无效,用 python.exe 打开.py 程序后再试一次。

最后硬广一波,新开了个 Python 专栏,请大家多捧捧场
https://zhuanlan.zhihu.com/cheezpython
https://segmentfault.com/blog/cheez_python
2849 次点击
所在节点    Python
3 条回复
ysc3839
2018-07-14 17:21:47 +08:00
没必要改注册表,用 SetConsoleCP 可以直接更改控制台的 codepage。
https://docs.microsoft.com/en-us/windows/console/setconsolecp
Cheez
2018-07-14 21:43:00 +08:00
格式居然乱了。。。。
mingyun
2018-07-15 09:00:55 +08:00
requests 还得加 header 吧

<html>
<head><title>400 Bad Request</title></head>
<body bgcolor="white">
<center><h1>400 Bad Request</h1></center>
<hr><center>openresty</center>
</body>
</html>

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/470896

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX