Der ultimative Leitfaden für chinesische Zeichenkodierungen: GB18030, GBK, Big5 und mehr
Die Verarbeitung von chinesischem Text in der Softwareentwicklung stellt einzigartige Herausforderungen dar. Im Gegensatz zu lateinbasierten Sprachen benötigt Chinesisch Tausende von Zeichen, was zu einer komplexen Geschichte von Kodierungsstandards geführt hat. Vom frühen GB2312 über den modernen, obligatorischen GB18030 bis hin zum allgegenwärtigen Big5, das in Taiwan und Hongkong verwendet wird – das Verständnis dieser Standards ist für jeden Entwickler, der mit ostasiatischen Daten arbeitet, unerlässlich.
In diesem Leitfaden untersuchen wir die technischen Details chinesischer Kodierungen, den Umgang mit Konvertierungen nach UTF-8 und die spezialisierten Texttransformationen, die in chinesischer Software oft erforderlich sind.
1. Die Standards für vereinfachtes Chinesisch: Die GB-Familie
In Festlandchina legen die nationalen Standards (Guobiao oder GB) fest, wie vereinfachte chinesische Schriftzeichen kodiert werden.
GB2312 (Das Fundament)
GB2312, veröffentlicht im Jahr 1980, war der erste große Standard. Er verwendet ein 2-Byte-Kodierungssystem und unterstützt 6.763 chinesische Schriftzeichen. Obwohl er 99,75 % der gebräuchlichen Zeichen abdeckt, fehlt die Unterstützung für viele seltene Namen und traditionelle Zeichen.
GBK (Die gängige Erweiterung)
GBK (Guobiao Kuozhan) wurde 1995 als Erweiterung von GB2312 eingeführt. Es fügte Unterstützung für traditionelle chinesische Schriftzeichen und seltene Symbole hinzu, während es abwärtskompatibel zu GB2312 blieb.
- Schlüsselwörter: GBK-Encoder-Decoder, GBK nach UTF-8.
GB18030 (Der moderne, obligatorische Standard)
GB18030 ist der aktuelle obligatorische Standard in der Volksrepublik China. Es handelt sich um eine Kodierung mit variabler Breite (unter Verwendung von 1, 2 oder 4 Bytes), die den gesamten Unicode-Zeichensatz unterstützt.
- Warum es wichtig ist: In China verkaufte Software ist gesetzlich verpflichtet, GB18030 zu unterstützen. Es beinhaltet die Unterstützung für Minderheitensprachen (wie Tibetisch und Uigurisch) und das Mapping für jeden Unicode-Codepunkt.
- Schlüsselwörter: GB18030-Encoder-Decoder.
2. Der Standard für traditionelles Chinesisch: Big5
Während Festlandchina die GB-Standards einführte, verwendeten Taiwan, Hongkong und Macau größtenteils Big5.
Was ist Big5?
Big5 wurde 1984 von fünf großen Technologieunternehmen entwickelt und ist ein 2-Byte-Kodierungssystem für traditionelles Chinesisch. Es unterstützt über 13.000 Zeichen. Es litt jedoch bekanntermaßen unter „Konflikten“ zwischen verschiedenen Implementierungen der Anbieter, was zu verschiedenen Erweiterungen wie Big5-HKSCS (für Hongkong) führte.
- Schlüsselwörter: Big5-Encoder-Decoder, Big5 nach UTF-8.
3. Jenseits der Basiskodierung: Essenzielle chinesische Texttransformationen
Kodierung ist nur die halbe Miete. Die chinesische Textverarbeitung erfordert oft semantische und stilistische Transformationen.
Konvertierung von vereinfachtem zu traditionellem Chinesisch
Die Konvertierung zwischen vereinfachtem (Festland) und traditionellem (Taiwan/HK) Chinesisch ist kein einfaches 1-zu-1-Mapping. Ein einzelnes vereinfachtes Zeichen kann je nach Kontext mehreren traditionellen Zeichen entsprechen. Professionelle Vereinfacht-zu-Traditionell-Konverter müssen linguistische Wörterbücher verwenden, um Genauigkeit zu gewährleisten.
Vollbreite vs. Halbbreite (Zenkaku/Hankaku)
In der chinesischen Typografie sind Zeichen normalerweise „vollbreit“ (sie nehmen einen quadratischen Block ein). Zahlen und lateinische Buchstaben können jedoch „halbbreit“ (schmal) sein. Entwickler benötigen oft einen Vollbreite-zu-Halbbreite-Konverter, um Eingaben in Datenbanken und Formularen zu normalisieren.
Chinesische Zahlen- und Währungskonverter
Chinesisch verwendet einzigartige Nummerierungssysteme. Für Finanzanwendungen werden „Buchhaltungszahlen“ (Daxie) verwendet, um Betrug zu verhindern.
- Chinesischer Zahlenkonverter: Konvertiert Standardziffern (123) in chinesische Schriftzeichen (一百二十三).
- Chinesischer Großbetragskonverter: Konvertiert Zahlen in die formelle Buchhaltungsversion (壹佰贰拾叁) für die Verwendung auf Schecks und Rechnungen.
Pinyin und Phonetik
Pinyin ist das Standard-Romanisierungssystem für Mandarin. Die Konvertierung von Schriftzeichen in Pinyin ist entscheidend für Suchindizierung, Eingabemethoden (IME) und Bildungstools.
- Schlüsselwörter: Chinesisch-zu-Pinyin-Konverter.
4. Tabelle zum technischen Vergleich
| Kodierung | Region | Typ | Unicode-kompatibel? | Bytes pro Zeichen |
|---|---|---|---|---|
| GB2312 | Festland | Vereinfacht | Nein | 2 |
| GBK | Festland | Vereinf./Trad. | Nein | 2 |
| GB18030 | Festland | Universal | Ja | 1, 2 oder 4 |
| Big5 | TW/HK | Traditionell | Nein | 2 |
| UTF-8 | Global | Universal | Ja | 1 bis 4 |
5. FAQ: Häufig gestellte Fragen
F: Warum sehe ich „Mojibake“ (乱码), wenn ich eine chinesische Textdatei öffne?
A: Dies passiert normalerweise, wenn eine in GBK oder Big5 kodierte Datei als UTF-8 geöffnet wird (oder umgekehrt). Verwenden Sie einen GBK-nach-UTF-8- oder Big5-nach-UTF-8-Konverter, um das Mapping zu korrigieren.
F: Ist GB18030 kompatibel mit UTF-8?
A: Nein. Obwohl beide alle Unicode-Zeichen unterstützen, verwenden sie unterschiedliche Bytesequenzen. Sie müssen einen geeigneten GB18030-Encoder-Decoder verwenden, um zwischen ihnen zu übersetzen.
F: Sollte ich GB18030 oder UTF-8 für meine neue App verwenden?
A: Für die große Mehrheit der Web- und Mobilanwendungen ist UTF-8 die beste Wahl. Verwenden Sie GB18030 nur, wenn Sie spezifische Compliance-Anforderungen für den chinesischen Markt haben oder mit veralteten Daten der chinesischen Regierung zu tun haben.
6. Chinesische Daten beherrschen mit Tool3M
Haben Sie Probleme mit veralteten chinesischen Kodierungen? Unsere Tool-Suite kann helfen:
- GBK/GB18030 Encoder & Decoder: Reparieren Sie verstümmelten Text und konvertieren Sie Altdateien.
- Big5-nach-UTF-8-Konverter: Verarbeiten Sie traditionelle chinesische Daten mit Leichtigkeit.
- Vereinfacht/Traditionell-Konverter: Hochpräzise linguistische Konvertierung.
- Chinesischer Großbetragskonverter: Generieren Sie sofort formelle Finanztexte.
- Pinyin-Konverter: Romanisieren Sie sofort jeden chinesischen Text für SEO oder Indizierung.