encoding korean euc-kr cp949 i18n

Leitfaden für koreanische Zeichenkodierungen: EUC-KR und CP949 verstehen

Meistern Sie die koreanische Textverarbeitung mit unserem Leitfaden zu EUC-KR- und CP949-Kodierungen und erfahren Sie, wie Sie veralteten koreanischen Text in modernes UTF-8 konvertieren.

2026-04-13

Leitfaden für koreanische Zeichenkodierungen: EUC-KR und CP949 verstehen

Der Umgang mit Text in koreanischer Sprache (Hangul) erfordert ein klares Verständnis der spezifischen Kodierungsstandards, die in Südkorea verwendet werden. Während UTF-8 heute der universelle Standard für moderne Web- und Mobilanwendungen ist, verlassen sich viele Altsysteme, ältere Windows-Anwendungen und veraltete Datenbanken immer noch auf EUC-KR und dessen Erweiterung CP949.

In diesem Leitfaden tauchen wir in die technischen Details koreanischer Zeichenkodierungen ein, betrachten ihre Beziehung zueinander und zeigen, wie Konvertierungen für die moderne Entwicklung effektiv verwaltet werden können.


1. Die Kernstandards: EUC-KR und CP949

Südkoreanischer digitaler Text wurde primär durch zwei eng verwandte Kodierungsstandards geprägt.

EUC-KR (Der Wansung-Standard)

EUC-KR (Extended Unix Code for Korean) basiert auf dem KS X 1001-Standard. Es ist ein "Wansung" (vor-zusammengesetztes) Kodierungssystem, was bedeutet, dass jede Hangul-Silbe als eine einzige Einheit kodiert wird, anstatt als separate Zeichen (Jamo).

  • Vorteile: Es ist sehr effizient für die gebräuchlichsten 2.350 Hangul-Silben.
  • Nachteile: Es kann nicht alle 11.172 möglichen Hangul-Silben darstellen, was zu Problemen bei seltenen Zeichen oder Namen führt.
  • Schlüsselwörter: EUC-KR Encoder Decoder, EUC-KR zu UTF-8.

CP949 (Die Windows-Erweiterung)

CP949 (Code Page 949) ist die proprietäre Erweiterung von EUC-KR durch Microsoft. Es ist die Standardkodierung für ältere Versionen von Windows (koreanische Edition) und ist in veralteter Unternehmenssoftware immer noch extrem verbreitet.

  • Warum es wichtig ist: CP949 löst die Haupteinschränkung von EUC-KR, indem es alle 11.172 möglichen Hangul-Silben unterstützt und gleichzeitig abwärtskompatibel zu EUC-KR bleibt.
  • Schlüsselwörter: CP949 Encoder Decoder.

2. Technische Vergleichstabelle

Kodierung Standard Typ Bester Anwendungsfall Unicode-kompatibel?
EUC-KR KS X 1001 Wansung Veraltete Unix/Linux-Systeme Nein
CP949 MS Windows Wansung Veraltete Windows-Anwendungen Nein
UTF-8 Unicode Universell Alle modernen koreanischen Softwares Ja

3. Best Practices für die koreanische Softwareentwicklung

Übergang zu UTF-8

Für jedes neue koreanische Projekt ist UTF-8 die einzig logische Wahl. Es unterstützt nativ alle Hangul-Silben, alten Hangul-Zeichen und globalen Emojis ohne die Einschränkungen regionaler Kodierungen.

  • Empfehlung: Verwenden Sie für Codedateien und Webinhalte immer UTF-8 (ohne BOM).

Normalisierung (NFC vs. NFD)

Bei der Arbeit mit koreanischem Text ist es entscheidend, die Unicode-Normalisierung korrekt zu handhaben.

  • NFC (Canonical Composition): Hangul-Zeichen werden als vor-zusammengesetzte Silben gespeichert (z. B. '한'). Dies ist der Standard für das Web, Windows und Linux.
  • NFD (Canonical Decomposition): Hangul-Zeichen werden in einzelne Jamo zerlegt (z. B. 'ㅎ', 'ㅏ', 'ㄴ'). Dies wird primär in macOS-Dateisystemen verwendet.
  • Warum es wichtig ist: Eine Suche nach "한" in NFC wird "한" in NFD nicht finden, es sei denn, Ihr System beherrscht die Normalisierung.

4. FAQ: Häufig gestellte Fragen

F: Warum erscheinen koreanische Zeichen in meiner Anwendung als "kaputt" (乱码)?

A: Dies passiert normalerweise, wenn eine EUC-KR- oder CP949-Datei als UTF-8 gelesen wird. Um dies zu beheben, müssen Sie die Datei explizit mit der korrekten koreanischen Kodierung dekodieren und erneut in UTF-8 kodieren.

F: Was ist der Unterschied zwischen EUC-KR und CP949?

A: CP949 ist eine Obermenge von EUC-KR. Es fügt über 8.000 Zeichen hinzu, um alle möglichen Hangul-Silbenkombinationen zu unterstützen, die im ursprünglichen EUC-KR-Standard fehlten.

F: Wie kann ich erkennen, ob eine Datei EUC-KR oder UTF-8 ist?

A: Sie können Bibliotheken zur Erkennung von Byte-Mustern (wie chardet) verwenden oder manuell auf das Fehlen von UTF-8-Multibyte-Sequenzen prüfen. UTF-8-Dateien enthalten oft ein BOM (Byte Order Mark), obwohl dies für koreanischen Text nicht empfohlen wird.


5. Meistern Sie koreanischen Text mit Tool3M

Lassen Sie sich nicht von veralteten koreanischen Kodierungen in Ihrer Entwicklung ausbremsen. Tool3M bietet spezialisierte Werkzeuge für den präzisen Umgang mit koreanischem Text:

  • EUC-KR/CP949 Encoder & Decoder: Reparieren Sie verstümmelten Text und konvertieren Sie veraltete koreanische Dateien in moderne Standards.
  • Hangul Normalisierungs-Tool: Konvertieren Sie zwischen Hangul NFC und NFD für plattformübergreifende Kompatibilität.
  • Koreanischer Kodierungs-Detektor: Identifizieren Sie sofort die Kodierung jedes koreanischen Textausschnitts oder jeder Datei.

Verwandte Leitfäden