请问一个 JS 代码，使用正则匹配中文的神奇问题。

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 261 天前的主题，其中的信息可能已经有所发展或是发生改变。

// 这里理论上应该返回 false ，但神奇的是居然返回 true

console.log(/^[\u2F800-\u2FA1F]+$/.test('abc'));

我这边正在写 JS ，想使用正则来匹配中文。

最开始的范围为：[\u4E00-\u9FFF] 基本汉字，后面有朋友提醒 CJK 还有扩展 A 区块和扩展 B 区块，需要也加上去。

咨询了 GPT3.5 和查询了 wikipedia ，把这个正则的匹配区间增加了 A 区块、B 区块、补充区块等。

然后就遇到上面神奇的问题，[\u2F800-\u2FA1F] 是中日韩兼容表意文字补充，来源： https://zh.wikipedia.org/wiki/%E4%B8%AD%E6%97%A5%E9%9F%93%E5%85%BC%E5%AE%B9%E8%A1%A8%E6%84%8F%E6%96%87%E5%AD%97%E8%A3%9C%E5%85%85 ，共 542 个字。但不知道为什么，测试后总返回 true 。

请问哪位大佬知道为什么呢，求指点。

第 1 条附言 · 261 天前

谢谢大家，原来是这样。
console.log(/^[\u{2F800}-\u{2FA1F}]+$/u.test('丽你')); // 返回 true
console.log(/^[\u{2F800}-\u{2FA1F}]+$/u.test('abc')); // 返回 false

正则

中文

4 条回复 • 2024-08-03 18:03:49 +08:00

xiangyuecn

261 天前

[\u2F800-\u2FA1F] = "\u2F80" + "0-\u2FA1" + "F"

lDqe4OE6iOEUQNM7

261 天前

基本汉字：[\u4E00-\u9FFF]
CJK 统一表意符号扩展 A：[\u3400-\u4DBF]
CJK 统一表意符号扩展 B：[\u20000-\u2A6DF]
CJK 统一表意符号扩展 C：[\u2A700-\u2B73F]
CJK 统一表意符号扩展 D：[\u2B740-\u2B81F]
CJK 统一表意符号扩展 E：[\u2B820-\u2CEAF]
中日韩兼容表意文字：[\uF900-\uFAFF]
中日韩兼容表意文字补充：[\u2F800-\u2FA1F]

nagisaushio

261 天前 via Android

你需要 \u{hhhhh} 并给表达式加上 u flag

paopjian

261 天前

当年的正则设置问题吧,\u 后面只有 4 位,要加花括号才能有五位
\uhhhh Matches a UTF-16 code-unit with the value hhhh (four hexadecimal digits).
\u{hhhh} or \u{hhhhh} (Only when the u flag is set.) Matches the character with the Unicode value U+hhhh or U+hhhhh (hexadecimal digits).