怎样解决编码问题?

2018-09-06 10:29:35 +08:00
 acone2003
我计算机本地有一个 CSV 文件,表头汉字编码格式是 ASCII,我用 spider(pyton 3.6)的 pandas 读取的时候显示 UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc9 in position 3: invalid continuation byte
问一下该怎么解决?
1865 次点击
所在节点    Python
7 条回复
chenstack
2018-09-06 10:55:51 +08:00
csv 也是文本文件,要么手动处理成 utf-8 编码的再读取,要么用 pandas read_csv 时指定 encoding
glacer
2018-09-06 11:12:15 +08:00
reload(sys)
sys.setdefaultencoding('utf8')
holajamc
2018-09-06 11:14:24 +08:00
@glacer python3 已经没有这个函数了:)
bmos
2018-09-06 11:31:25 +08:00
我用比较笨的方法,直接指定编码方式,open,然后 readlines,list 再转化成其他格式。。占个座看看有没有好的方法。
Cooky
2018-09-06 11:35:13 +08:00
@bmos iconv 一条命令的事情,少写点代码(
acone2003
2018-09-06 11:36:12 +08:00
谢谢 chenstack,搞定!同时也谢谢楼上两位
raysonx
2018-09-06 11:40:09 +08:00
你说的汉字编码是 GB 吧,ASCII 不支持中文。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/486646

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX