最近抓取一个网站,编码格式无法解决, 求助帖

2018-10-31 15:00:28 +08:00
 foxyier
通过查看网页源码, 网站编码格式为 utf-8, 可是通过 utf-8 解码提示 UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 0: invalid start byte, 通过设置 ignore 参数, 成功得到了一堆乱码。 网站链接在此: http://www.bw30.com/tszt/huodong/09/wpsj/index.htm, 坐等各位大佬协助~
2030 次点击
所在节点    Python
8 条回复
zealot0630
2018-10-31 15:02:54 +08:00
bom 了解一下
binux
2018-10-31 15:06:29 +08:00
GB2312
foxyier
2018-10-31 15:12:08 +08:00
@binux gb2312 和 gbk 都会报 UnicodeDecodeError: 'gb2312' codec can't decode byte 0xff in position 0: illegal multibyte sequence
ysc3839
2018-10-31 15:14:25 +08:00
估计是 UTF-8 BOM 吧?
Sylv
2018-10-31 15:15:45 +08:00
上代码,要不然我们只能瞎猜。
fzzff
2018-10-31 15:20:16 +08:00
chardet 试试
XIVN1987
2018-10-31 15:26:10 +08:00
同意楼上,百度“ UTF-8 BOM python ”试试
foxyier
2018-10-31 15:32:39 +08:00
@fzzff 多谢, 检测出来了, 编码格式是 utf-16

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/503030

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX