encoding chinese gb18030 gbk big5 i18n

Le guide ultime des encodages de caractères chinois : GB18030, GBK, Big5, et au-delà

Maîtrisez le traitement du texte chinois grâce à cette plongée dans GB18030, GBK, GB2312 et Big5. Découvrez la conversion d'encodage, le chinois simplifié par rapport au chinois traditionnel, et les convertisseurs spécialisés.

2026-04-13

Le guide ultime des encodages de caractères chinois : GB18030, GBK, Big5, et au-delà

Le traitement du texte chinois dans le développement de logiciels présente des défis uniques. Contrairement aux langues basées sur le latin, le chinois nécessite des milliers de caractères, ce qui a conduit à une histoire complexe de normes d'encodage. Du premier GB2312 au moderne et obligatoire GB18030, en passant par l'omniprésent Big5 utilisé à Taïwan et à Hong Kong, la compréhension de ces normes est essentielle pour tout développeur travaillant avec des données d'Asie de l'Est.

Dans ce guide, nous explorerons les détails techniques des encodages chinois, la manière de gérer les conversions vers l'UTF-8 et les transformations de texte spécialisées souvent requises dans les logiciels chinois.


1. Les normes du chinois simplifié : la famille GB

En Chine continentale, les normes nationales (Guobiao, ou GB) dictent la manière dont les caractères chinois simplifiés sont encodés.

GB2312 (La fondation)

Publiée en 1980, GB2312 était la première norme majeure. Elle utilise un système d'encodage sur 2 octets et prend en charge 6 763 caractères chinois. Bien qu'elle couvre 99,75 % des caractères couramment utilisés, elle ne prend pas en charge de nombreux noms rares et caractères traditionnels.

GBK (L'extension commune)

Le GBK (Guobiao Kuozhan) a été introduit en 1995 comme une extension du GB2312. Il a ajouté la prise en charge des caractères chinois traditionnels et des symboles rares tout en restant rétrocompatible avec le GB2312.

  • Mots-clés : encodeur décodeur GBK, GBK vers UTF-8.

GB18030 (La norme obligatoire moderne)

Le GB18030 est la norme obligatoire actuelle en République populaire de Chine. Il s'agit d'un encodage à largeur variable (utilisant 1, 2 ou 4 octets) qui prend en charge l'ensemble du jeu de caractères Unicode.

  • Pourquoi c'est important : les logiciels vendus en Chine sont légalement tenus de prendre en charge le GB18030. Il inclut la prise en charge des langues minoritaires (comme le tibétain et l'ouïghour) et la correspondance pour chaque point de code Unicode.
  • Mots-clés : encodeur décodeur GB18030.

2. La norme du chinois traditionnel : Big5

Alors que la Chine continentale a adopté les normes GB, Taïwan, Hong Kong et Macao ont largement utilisé le Big5.

Qu'est-ce que le Big5 ?

Développé en 1984 par cinq grandes entreprises technologiques, le Big5 est un système d'encodage sur 2 octets pour le chinois traditionnel. Il prend en charge plus de 13 000 caractères. Cependant, il est célèbre pour avoir souffert de « conflits » entre les différentes implémentations des fournisseurs, ce qui a conduit à diverses extensions comme le Big5-HKSCS (pour Hong Kong).

  • Mots-clés : encodeur décodeur Big5, Big5 vers UTF-8.

3. Au-delà de l'encodage de base : transformations essentielles du texte chinois

L'encodage n'est que la moitié de la bataille. Le traitement du texte chinois nécessite souvent des transformations sémantiques et stylistiques.

Conversion du chinois simplifié vers le traditionnel

La conversion entre le chinois simplifié (Chine continentale) et le traditionnel (Taïwan/HK) n'est pas une simple correspondance 1 pour 1. Un seul caractère simplifié peut correspondre à plusieurs caractères traditionnels selon le contexte. Les convertisseurs professionnels du chinois simplifié vers le traditionnel doivent utiliser des dictionnaires linguistiques pour garantir la précision.

Pleine chasse vs demi-chasse (Zenkaku/Hankaku)

Dans la typographie chinoise, les caractères sont généralement à « pleine chasse » (occupant un bloc carré). Cependant, les chiffres et les lettres latines peuvent être à « demi-chasse » (étroits). Les développeurs ont souvent besoin d'un convertisseur pleine chasse vers demi-chasse pour normaliser la saisie dans les bases de données et les formulaires.

Convertisseurs de nombres et de devises chinois

Le chinois utilise des systèmes de numérotation uniques. Pour les applications financières, les « nombres comptables » (Daxie) sont utilisés pour prévenir la fraude.

  • Convertisseur de nombres chinois : convertit les chiffres standard (123) en caractères chinois (一百二十三).
  • Convertisseur de montants en capital chinois : convertit les nombres en version comptable formelle (壹佰贰拾叁) pour une utilisation sur les chèques et les factures.

Pinyin et phonétique

Le Pinyin est le système de romanisation standard du mandarin. La conversion de caractères en Pinyin est vitale pour l'indexation de recherche, les méthodes de saisie (IME) et les outils pédagogiques.

  • Mots-clés : convertisseur chinois vers Pinyin.

4. Tableau de comparaison technique

Encodage Région Type Compatible Unicode ? Octets par car.
GB2312 Continent Simplifié Non 2
GBK Continent Simpl./Trad. Non 2
GB18030 Continent Universel Oui 1, 2 ou 4
Big5 TW/HK Traditionnel Non 2
UTF-8 Global Universel Oui 1 à 4

5. FAQ : questions fréquemment posées

Q : Pourquoi est-ce que je vois du « Mojibake » (乱码) en ouvrant un fichier texte chinois ?

R : Cela se produit généralement lorsqu'un fichier encodé en GBK ou Big5 est ouvert en tant qu'UTF-8 (ou vice versa). Utilisez un convertisseur GBK vers UTF-8 ou Big5 vers UTF-8 pour corriger la correspondance.

Q : Le GB18030 est-il compatible avec l'UTF-8 ?

R : Non. Bien que les deux prennent en charge tous les caractères Unicode, ils utilisent des séquences d'octets différentes. Vous devez utiliser un encodeur décodeur GB18030 approprié pour traduire entre les deux.

Q : Dois-je utiliser le GB18030 ou l'UTF-8 pour ma nouvelle application ?

R : Pour la vaste majorité des applications web et mobiles, l'UTF-8 est le meilleur choix. N'utilisez le GB18030 que si vous avez des exigences de conformité spécifiques pour le marché chinois ou si vous traitez des données anciennes du gouvernement chinois.


6. Maîtriser les données chinoises avec Tool3M

Vous avez des difficultés avec les encodages chinois obsolètes ? Notre suite d'outils peut vous aider :

  • Encodeur et décodeur GBK/GB18030 : réparez les textes corrompus et convertissez les anciens fichiers.
  • Convertisseur Big5 vers UTF-8 : traitez facilement les données en chinois traditionnel.
  • Convertisseur simplifié/traditionnel : conversion linguistique de haute précision.
  • Convertisseur de montants en capital chinois : générez instantanément du texte financier formel.
  • Convertisseur Pinyin : romanisez instantanément tout texte chinois pour le SEO ou l'indexation.

Guides associés