还是 Python requests 的字符编码问题，明明已经正确析出真 html 文本内容， str 对象依然含有 gbk 环境不能处理的特殊字符...

2021-03-08 10:50:54 +08:00

uti6770werty

经过各位高手前几天指点，
可以确认 http 服务器的通信过程没有指明编码, 网页内容里虽然指定了 content="text/html; charset=utf-8"，但这个不能影响到 requests 判断。。被 requests 认为是"ISO-8859-1"了

r = requests.get(link)
print(r..encoding)  # <- ISO-8859-1
print(r.apparent_encoding) # <- UTF-8-SIG

r.encoding = 'UTF-8-SIG'
print(r.text) # <- 不再报编码错误，能正确输出

retrun r.text # 从函数里把 html 文本送出去

# 函数外
htmlString = reguestGeturl(urllink)
for i in BeautifulSoup(htmlString ,'lxml').findAll('td'):
        print(i)

这时候，又有编码错误了。。。
print(i)
UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' in position 282: illegal multibyte sequence

为什么还会有\xa0 呢，处理出来的 string，已经没有\xa0 才对呀
望各位高手指出问题所在，谢谢解答！

2886 次点击

所在节点

Python

19 条回复

justseemore

2021-03-08 11:17:00 +08:00

#coding=utf8

uti6770werty

2021-03-08 11:19:22 +08:00

@zpfhbyx 做了 htmlString = "#coding=utf8\n" + htmlString
还是老样子，这个应该不行？

ClutchBear

2021-03-08 11:21:07 +08:00

@uti6770werty 意思应该是在 python 代码的第一行加上这个. 不是 html 源码中加..

uti6770werty

2021-03-08 11:21:27 +08:00

如果是用 replace 的方式，替换完\xa0，还有\xae,\xa***之类的东西，有些担心会替换了很多有用的字符。。。

uti6770werty

2021-03-08 11:22:56 +08:00

@ClutchBear 每个.py 文件，都加了的。。。。

renmu123

2021-03-08 11:29:17 +08:00

utf-8 和 urf-8-sig 可不是一个编码，还有可能是网页头文件是瞎标的，压根不是 utf-8 编码

uti6770werty

2021-03-08 11:32:48 +08:00

@renmu123 明白，可是我 print(htmlString)，已经能看到中文了
str 对象携带的内容编码是 UTF-8-SIG
搜了网络，似乎从来没有人做过对 str 对象本身要转编码这种事情。。。。

wevsty

2021-03-08 11:34:02 +08:00

BeautifulSoup(htmlString, 'lxml', from_encoding="utf-8")

大概这样就可以了。

uti6770werty

2021-03-08 11:44:28 +08:00

@wevsty 内容带了一堆\xa0，\r\n 的特殊字符，

还是想在做 BeautifulSoup 之前，正确地把字符编码转好
还是根本没办法，必须要对这些\xa0，特殊字符做手动替换吗？

wevsty

2021-03-08 12:07:09 +08:00

@uti6770werty
只是要做编码转换的话自己用 decode 和 encode 转就行了。
GBK->UTF-8
"string".decode('gbk').encode('utf-8')

UTF-8->GBK
"string".decode('utf-8').encode('gbk')

uti6770werty

2021-03-08 12:32:25 +08:00

@wevsty 明白您的意思，Python 3.66 的 str 已经没有 decode()这个方法了，虽然知道是要转成 gbk，一直都没能找到 utf-8-SIG 转 gbk 的正确方式....

wevsty

2021-03-08 12:47:25 +08:00

@uti6770werty

更正一下，写错了.
string 是没有 decode 方法的，只有 bytes 才有 decode 。

GBK->UTF-8
b"GBK string".decode('gbk').encode('utf-8')

UTF-8->GBK
"string".encode('gbk')

shyrock

2021-03-08 14:06:10 +08:00

python3 还有字符串处理和显示问题？这问题真挺恶心的，日志窗口能显示中文，调试窗口就是乱码

imn1

2021-03-08 14:26:07 +08:00

如果你是 windows 平台，cmd 环境也要设成 utf8，windows 对应是 codepage 65001

Sylv

2021-03-08 14:39:41 +08:00

你这个是中文 Windows 下终端编码导致的 print 问题，print str(unicode) 类型字符串时 Python 要把字符串用终端编码 encode 成 bytes 后才能输出显示，Windows 中文终端默认编码是 gbk，而你的字符串里有 gbk 编码不了的字符，于是就报错了，解决方法是把终端编码改成 utf-8 。

dier

2021-03-08 14:51:46 +08:00

我之前也遇到过类似的问题，用的是下面的方法，你参考一下

r = requests.get(url)
r.encoding = "gbk"
html = r.text

Rhilip

2021-03-08 15:59:29 +08:00

中文 Windows 下终端编码问题，因为出错在 print 上

lusi1990

2021-03-08 16:02:03 +08:00

打印 r.content 看看
.decode('utf-8',errors='ignore') 添加参数忽略错误

geebos

2021-03-10 02:47:03 +08:00

这个问题应该是 windows 的控制台默认编码是 gbk 的问题，改一下控制台编码就行。

实际你的结果已经没有问题了，只是包含有不能转成 gbk 编码的字符，所以在用 print 输出的时候会报错，保存到文件在看就是正常的了。

如果实在觉得膈应的话，可以用下面的代码把 gbk 不支持的字符全部过滤掉。

def encoding_transform(text:'str', target_encoding:'str')->str:
"""
将字符串转换成目标编码，不能被目标编码编码的字符全部舍弃
"""
if not isinstance(text, str):
return text

text_list = []
while True:
try:
text = text.encode(target_encoding).decode(target_encoding)
text_list.append(text)
break
except UnicodeEncodeError as e:
position = int(re.findall(r'position (\d+):', str(e))[0])
text_list.append(text[:position])
text = text[position+1:]
return ''.join(text_list)

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/759499

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.