V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
polarpy
V2EX  ›  问与答

\U00088301 这样的字符我想把\U000 替换成 \x 该怎么处理?

  •  
  •   polarpy · 2021-01-16 11:15:04 +08:00 · 1365 次点击
    这是一个创建于 1438 天前的主题,其中的信息可能已经有所发展或是发生改变。
    网页源码是这个 '''򈅜'''
    采集下来变成了 \U0008815c 这样
    我想吧\U000 替换成\x 用用 16 进制转 10 进制

    但是\U000 没法替换,转了好几个码都处理不了,有什么好的解决办法吗?
    4 条回复    2021-01-16 18:49:30 +08:00
    imn1
        1
    imn1  
       2021-01-16 11:53:55 +08:00

    \x 就是用十六进制啊,\x 跟十进制是怎样的用途呢?

    十六进制是两位一个字节,你这个变换结果最多就是 08815c
    最搞不懂的是,8815c 超出 unicode 范围了,这个字符不属于任何定义集

    至于转换,你使用的语言,把 unicode 转 bytes 就是了,不需要理会\u000,\u000 这不是一个字符串,不能替换
    orannge
        2
    orannge  
       2021-01-16 14:18:34 +08:00
    Unicode 范围 [U+0000,U+D7FF] 和 [U+E000,U+10FFFF],错倒没错,不过你这几个是啥字
    polarpy
        3
    polarpy  
    OP
       2021-01-16 18:46:59 +08:00
    @orannge 采集下来的就是这样的,我想把他专程'''\x8815c''' 这样就可以专成 10 进制数,在对应字体,我就能拿到我想要的数据了,主要是原网页的数据用字体加密了
    polarpy
        4
    polarpy  
    OP
       2021-01-16 18:49:30 +08:00
    @imn1 主要是我要后面的数据,8815c 这个,我可以把用\x8815c 专成 10 进制数 ,解密字体
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5766 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 01:45 · PVG 09:45 · LAX 17:45 · JFK 20:45
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.