MultiByteToWideChar 处理 UTF8 字符串的时候，会出现一些奇怪的现象，请问如何解决？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 2529 天前的主题，其中的信息可能已经有所发展或是发生改变。

发生情况：一个全角的符号（感叹号，单引号之类的）后跟一个空格，例如

！ ‘ ’ ！ “ ” [ ] = - 0、。，；： …… · （这里的所有引号请用全角）

这种情况下，MultiByteToWideChar 会输出一堆乱码出来（例如"�?�?�?！�?�?�?�?= - 0 �?�?�?�?�?…�?% · "）

这样的，请问有人知道怎么解决吗？

调用：MultiByteToWideChar(CP_UTF8, 0, szUTF8, -1, pWcharTmp, nWcharCnt); //szUTF8 为 const char*的 UTF8 字面量

🐶

全角

szutf8

UTF8

2 条回复 • 2018-03-19 12:48:47 +08:00

ysc3839

2018-03-19 12:29:57 +08:00

UTF-8 可以直接转 UTF-16 的，不需要调用系统 API。

ysc3839

2018-03-19 12:48:47 +08:00

另外经过测试并没有你说的问题。
代码:

```
#include <Windows.h>
#include <stdio.h>

int main()
{
const char* szUTF8 = u8"！ ‘ ’ ！ “ ” [ ] = - 0、。，；： …… · ";

int len = MultiByteToWideChar(CP_UTF8, 0, szUTF8, -1, NULL, 0);

wchar_t *buf = (wchar_t *)malloc(len);

MultiByteToWideChar(CP_UTF8, 0, szUTF8, -1, buf, len);

FILE *f = fopen("UTF-16.txt", "wb");
fwrite(buf, len, 1, f);
fclose(f);

free(buf);

return 0;
}
```