如何使 ord()小于 127 的 ascii 字符保持 b'\xXX' 形式而不是自动识别

2018-02-20 18:25:39 +08:00
 shamashii
可能有点绕。举例:
>>> ord('ß')
223 (大于 127 )

>>> hex(ord('ß'))
'0xdf'

>>> b'\xdf'
b'\xdf'(想要的)

>>> ord('A')
65(小于 127)

>>> hex(ord('A'))
'0x41'


>>> b'\x41'
b'A' (不是想要的)

虽然 doc 里说明了这种行为,想要结果仍为 b'\x41',不知有没有什么方法
2458 次点击
所在节点    Python
8 条回复
ysc3839
2018-02-20 18:36:44 +08:00
'A'.encode()[0] 不就行了吗?
huntzhan
2018-02-20 18:41:42 +08:00
你先搞清楚 unicode code point 以及 encoding 两者的区别。

```
>>> b'\xdf'
b'\xdf'
>>> '\xdf'
'ß'
```
geelaw
2018-02-20 18:51:31 +08:00
b'\x41' 和 b'A' 是相等的,不存在“保留不保留”的问题,只是默认的输出器输出的时候用了后一种形式来格式化 /序列化。

你只要自己写一个用来把 byte sequence 转换为字符串表示的方法即可。比如

''.join(map(lambda x: '\\x%x' % x, b'A'))
geelaw
2018-02-20 18:53:46 +08:00
@geelaw 唔,显然我没有测试代码 - - 应该是

print("b'%s'" % ''.join(map(lambda x: '\\x%x' % x, b'A')))
shamashii
2018-02-20 19:01:54 +08:00
@ysc3839 我要的结果是 b'\x41'

@huntzhan 请告诉我如何才能实现输入 b'\x41' ,回车, 结果仍然是 b'\x41' 而不是 b'A'

至于 ucp 号,至少常用 ascii 对应的 ucp 号和其被编码后(大部分如 utf8,ascii)的物理 hex 值相同吧?
ysc3839
2018-02-20 19:08:38 +08:00
@shamashii 参见 3 楼。
如果你只是要个文本的话,那就
"b'\"+hex(ord('A'))[1:]+"'"
huntzhan
2018-02-20 19:23:04 +08:00
输出 b'\xdf' 是 by design 的,因为 `b` 仅仅是 binary data。如果你想要改变这个默认行为,可以 override `sys.displayhook`。

```
>>> import sys
>>> sys.displayhook = lambda val: print('fuck kula')
>>> 1
fuck kula
>>> 2
fuck kula
```

https://stackoverflow.com/questions/17248383/pretty-print-by-default-in-python-repl
msg7086
2018-02-20 23:23:44 +08:00
b'\x41' 和 b'A' 是一个东西。一模一样的一个东西。

造成区别的是把他打印在屏幕上的那个函数。

如楼上所说,你要改变'A'的显示方式,修改显示函数就行了,自己拿字符然后转写成这种方法,甚至是直接打印出 16 进制的值都行。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/431364

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX