韩语字符编码指南：了解 EUC-KR 和 CP949

处理韩语（Hangul）文本需要清楚地了解韩国使用的特定编码标准。虽然 UTF-8 现在是现代 Web 和移动应用程序的通用标准，但许多遗留系统、遗留 Windows 应用程序和旧数据库仍然依赖于 EUC-KR 及其扩展 CP949。

在本指南中，我们将深入探讨韩语字符编码的技术细节、它们之间的关系，以及如何有效地管理现代开发中的转换。

1. 核心标准：EUC-KR 和 CP949

韩国的数字文本主要受两种密切相关的编码标准影响。

EUC-KR (Extended Unix Code for Korean) 基于 KS X 1001 标准。它是一种“完成型”（Wansung）编码系统，意味着它将每个韩语音节编码为一个单一单元，而不是单独的字母（Jamo）。

CP949 (Code Page 949) 是微软对 EUC-KR 的专有扩展。它是旧版本 Windows（韩语版）的默认编码，在遗留商业软件中仍然极其常见。

编码	标准	类型	最佳用例	Unicode 兼容？
EUC-KR	KS X 1001	完成型	遗留 Unix/Linux 系统	否
CP949	MS Windows	完成型	遗留 Windows 应用程序	否
UTF-8	Unicode	通用	所有现代韩语软件	是

对于任何新的韩语项目，UTF-8 是唯一合乎逻辑的选择。它原生支持所有韩语音节、古韩语字符和全球表情符号，没有区域编码的局限性。

在处理韩语文本时，正确处理 Unicode 标准化至关重要。

NFC (Canonical Composition)：韩语字符存储为预组合音节（例如 '한'）。这是 Web、Windows 和 Linux 的标准。
NFD (Canonical Decomposition)：韩语字符分解为单独的字母（Jamo）（例如 'ㅎ', 'ㅏ', 'ㄴ'）。这主要用于 macOS 文件系统。
重要性：除非您的系统具有“标准化意识”，否则在 NFC 中搜索“한”将无法在 NFD 中找到“한”。

答：这通常发生在以 UTF-8 方式读取 EUC-KR 或 CP949 文件时。要修复此问题，您必须显式使用正确的韩语编码解码文件，并将其重新编码为 UTF-8。

答：CP949 是 EUC-KR 的超集。它增加了 8,000 多个字符，以支持原始 EUC-KR 标准中缺失的所有韩语音节组合。

答：您可以使用字节模式检测库（如 chardet）或手动检查是否存在 UTF-8 多字节序列。UTF-8 文件通常包含 BOM（字节顺序标记），尽管不建议韩语文本使用它。

不要让遗留的韩语编码减慢您的开发速度。Tool3M 提供处理韩语文本的专业工具：