\U00088301 这样的字符我想把\U000 替换成 \x 该怎么处理？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 1736 天前的主题，其中的信息可能已经有所发展或是发生改变。

网页源码是这个 '''򈅜'''
采集下来变成了 \U0008815c 这样
我想吧\U000 替换成\x 用用 16 进制转 10 进制

但是\U000 没法替换，转了好几个码都处理不了，有什么好的解决办法吗？

u000

替换

进制转

进制

4 条回复 • 2021-01-16 18:49:30 +08:00

imn1

2021-01-16 11:53:55 +08:00

？
\x 就是用十六进制啊，\x 跟十进制是怎样的用途呢？

十六进制是两位一个字节，你这个变换结果最多就是 08815c
最搞不懂的是，8815c 超出 unicode 范围了，这个字符不属于任何定义集

至于转换，你使用的语言，把 unicode 转 bytes 就是了，不需要理会\u000，\u000 这不是一个字符串，不能替换

orannge

2021-01-16 14:18:34 +08:00

Unicode 范围 [U+0000,U+D7FF] 和 [U+E000,U+10FFFF]，错倒没错，不过你这几个是啥字

polarpy

2021-01-16 18:46:59 +08:00

@orannge 采集下来的就是这样的，我想把他专程'''\x8815c''' 这样就可以专成 10 进制数，在对应字体，我就能拿到我想要的数据了，主要是原网页的数据用字体加密了

polarpy

2021-01-16 18:49:30 +08:00

@imn1 主要是我要后面的数据，8815c 这个，我可以把用\x8815c 专成 10 进制数，解密字体