请教个 python2.7 读取 html 文件的编码问题

2018-06-25 17:53:52 +08:00

karlxu

截图是个 html 文件，编码是：<meta http-equiv="Content-Type" content="text/html; charset=unicode">
python 想查找有没有 table class 关键字：

但是找不到 table class，感觉是编码的问题，我也试过中间加上空格，也找不到。
代码最开头已经加了：

应该怎么写才能正确读到？谢谢！

1282 次点击

所在节点

5 条回复

ThirdFlame

2018-06-25 18:44:27 +08:00

我觉得里面有空格吧。用 16 进制的方式看一看到底是什么内容。
另外复制查找也不行么？

karlxu

2018-06-25 21:26:16 +08:00

@ThirdFlame 在 notepad++里展示和查找是正常的，没有空格，就是 print 的时候发现有空格

msg7086

2018-06-25 22:02:31 +08:00

charset=unicode

你为什么要用 utf-8 去读？又不是 charset=utf-8。

aiver

2018-06-26 07:26:31 +08:00

如果是标准 HTML 文件，用 BS 库打印了看看。另外，楼上说的对，unicode 为什么用 utf-8 解析啊

karlxu

2018-06-26 09:32:14 +08:00

@msg7086
@aiver
一开始不知道是 unicode，这个是 beyond compare 生成的 html，对比 2 个 Excel

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.