\U00088301 这样的字符我想把\U000 替换成 \x 该怎么处理?

2021-01-16 11:15:04 +08:00
 polarpy
网页源码是这个 '''򈅜'''
采集下来变成了 \U0008815c 这样
我想吧\U000 替换成\x 用用 16 进制转 10 进制

但是\U000 没法替换,转了好几个码都处理不了,有什么好的解决办法吗?
1196 次点击
所在节点    问与答
4 条回复
imn1
2021-01-16 11:53:55 +08:00

\x 就是用十六进制啊,\x 跟十进制是怎样的用途呢?

十六进制是两位一个字节,你这个变换结果最多就是 08815c
最搞不懂的是,8815c 超出 unicode 范围了,这个字符不属于任何定义集

至于转换,你使用的语言,把 unicode 转 bytes 就是了,不需要理会\u000,\u000 这不是一个字符串,不能替换
orannge
2021-01-16 14:18:34 +08:00
Unicode 范围 [U+0000,U+D7FF] 和 [U+E000,U+10FFFF],错倒没错,不过你这几个是啥字
polarpy
2021-01-16 18:46:59 +08:00
@orannge 采集下来的就是这样的,我想把他专程'''\x8815c''' 这样就可以专成 10 进制数,在对应字体,我就能拿到我想要的数据了,主要是原网页的数据用字体加密了
polarpy
2021-01-16 18:49:30 +08:00
@imn1 主要是我要后面的数据,8815c 这个,我可以把用\x8815c 专成 10 进制数 ,解密字体

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/745435

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX