encoding korean euc-kr cp949 i18n

Guide des encodages de caractères coréens : Comprendre l'EUC-KR et le CP949

Maîtrisez le traitement du texte coréen grâce à notre guide sur les encodages EUC-KR et CP949, et apprenez à convertir les textes coréens hérités en UTF-8 moderne.

2026-04-13

Guide des encodages de caractères coréens : Comprendre l'EUC-KR et le CP949

La manipulation de texte en langue coréenne (Hangul) nécessite une compréhension claire des normes d'encodage spécifiques utilisées en Corée du Sud. Bien que l'UTF-8 soit désormais la norme universelle pour les applications web et mobiles modernes, de nombreux systèmes hérités, applications Windows anciennes et bases de données obsolètes reposent encore sur l'EUC-KR et son extension, le CP949.

Dans ce guide, nous allons plonger dans les détails techniques des encodages de caractères coréens, leur relation entre eux et comment gérer efficacement les conversions pour le développement moderne.


1. Les normes de base : EUC-KR et CP949

Le texte numérique sud-coréen a été principalement façonné par deux normes d'encodage étroitement liées.

EUC-KR (La norme Wansung)

L'EUC-KR (Extended Unix Code for Korean) est basé sur la norme KS X 1001. Il s'agit d'un système d'encodage "Wansung" (pré-composé), ce qui signifie qu'il encode chaque syllabe Hangul comme une seule unité plutôt que comme des caractères séparés (Jamo).

  • Avantages : Il est très efficace pour les 2 350 syllabes Hangul les plus courantes.
  • Inconvénients : Il ne peut pas représenter les 11 172 syllabes Hangul possibles, ce qui pose des problèmes pour les caractères ou les noms rares.
  • Mots-clés : Encodeur décodeur EUC-KR, conversion EUC-KR vers UTF-8.

CP949 (L'extension Windows)

Le CP949 (Code Page 949) est l'extension propriétaire de Microsoft de l'EUC-KR. Il s'agit de l'encodage par défaut des anciennes versions de Windows (édition coréenne) et il reste extrêmement courant dans les logiciels d'entreprise hérités.

  • Pourquoi c'est important : Le CP949 résout la principale limitation de l'EUC-KR en prenant en charge les 11 172 syllabes Hangul possibles tout en restant rétrocompatible avec l'EUC-KR.
  • Mots-clés : Encodeur décodeur CP949.

2. Tableau de comparaison technique

Encodage Norme Type Meilleur cas d'utilisation Compatible Unicode ?
EUC-KR KS X 1001 Wansung Systèmes Unix/Linux hérités Non
CP949 MS Windows Wansung Applications Windows héritées Non
UTF-8 Unicode Universel Tous les logiciels coréens modernes Oui

3. Meilleures pratiques pour le développement de logiciels coréens

Transition vers l'UTF-8

Pour tout nouveau projet coréen, l'UTF-8 est le seul choix logique. Il prend en charge nativement toutes les syllabes Hangul, les anciens caractères Hangul et les emojis mondiaux sans les limitations des encodages régionaux.

  • Recommandation : Utilisez toujours l'UTF-8 (sans BOM) pour les fichiers de code et le contenu web.

Normalisation (NFC vs NFD)

Lors du travail avec du texte coréen, il est crucial de gérer correctement la normalisation Unicode.

  • NFC (Composition Canonique) : Les caractères Hangul sont stockés sous forme de syllabes pré-composées (ex: '한'). C'est la norme pour le web, Windows et Linux.
  • NFD (Décomposition Canonique) : Les caractères Hangul sont décomposés en Jamo individuels (ex: 'ㅎ', 'ㅏ', 'ㄴ'). Ceci est principalement utilisé dans les systèmes de fichiers macOS.
  • Pourquoi c'est important : Une recherche de "한" en NFC ne trouvera pas "한" en NFD à moins que votre système ne soit "sensible à la normalisation".

4. FAQ : Questions fréquemment posées

Q : Pourquoi les caractères coréens apparaissent-ils comme "cassés" (乱码) dans mon application ?

R : Cela se produit généralement lorsqu'un fichier EUC-KR ou CP949 est lu en UTF-8. Pour corriger cela, vous devez explicitement décoder le fichier en utilisant l'encodage coréen correct et le ré-encoder en UTF-8.

Q : Quelle est la différence entre l'EUC-KR et le CP949 ?

R : Le CP949 est un surensemble de l'EUC-KR. Il ajoute plus de 8 000 caractères pour prendre en charge toutes les combinaisons possibles de syllabes Hangul qui manquaient dans la norme EUC-KR originale.

Q : Comment puis-je détecter si un fichier est en EUC-KR ou en UTF-8 ?

R : Vous pouvez utiliser des bibliothèques de détection de motifs d'octets (comme chardet) ou vérifier manuellement l'absence de séquences multi-octets UTF-8. Les fichiers UTF-8 contiennent souvent un BOM (Byte Order Mark), bien que cela ne soit pas recommandé pour le texte coréen.


5. Maîtrisez le texte coréen avec Tool3M

Ne laissez pas les encodages coréens hérités ralentir votre développement. Tool3M fournit des outils spécialisés pour manipuler le texte coréen avec précision :

  • Encodeur & Décodeur EUC-KR/CP949 : Réparez les textes corrompus et convertissez les fichiers coréens hérités aux normes modernes.
  • Outil de normalisation Hangul : Convertissez entre le Hangul NFC et NFD pour une compatibilité multiplateforme.
  • Détecteur d'encodage coréen : Identifiez instantanément l'encodage de n'importe quel extrait de texte ou fichier coréen.

Guides connexes