encoding iso-8859 windows-1252 koi8-r i18n

Globaler Leitfaden für Legacy-Kodierungen: Verständnis der ISO-8859- und Windows-125x-Familien

Ein umfassender Leitfaden zu veralteten Zeichenkodierungen wie Latin-1, Windows-1252 und kyrillischen Standards wie ISO-8859-5 und KOI8-R.

2026-04-13

Globaler Leitfaden für Legacy-Kodierungen: Verständnis der ISO-8859- und Windows-125x-Familien

Obwohl UTF-8 heute der globale Standard ist, verwenden Millionen von Dateien, Datenbanken und Altsystemen weltweit immer noch regionale 8-Bit-Zeichenkodierungen. Für Entwickler, Datenwissenschaftler und IT-Experten ist das Verständnis dieser Legacy-Standards unerlässlich, um Datenkorruption zu verhindern und „Zeichensalat“ (Mojibake) zu reparieren.

In diesem Leitfaden untersuchen wir die gängigsten regionalen Kodierungsfamilien, einschließlich der ISO-8859-Serie und der Windows-125x-Codepages von Microsoft.


1. Die ISO-8859-Serie (Die globalen Standards)

Die ISO-8859-Standards sind die ursprünglichen internationalen Standards für 8-Bit-Zeichenkodierungen. Jeder Teil des Standards ist für eine bestimmte Region oder Sprachfamilie konzipiert.

  • ISO-8859-1 (Latin-1): Die am weitesten verbreitete 8-Bit-Kodierung, die westeuropäische Sprachen (Englisch, Französisch, Deutsch, Spanisch usw.) abdeckt.
  • ISO-8859-2 (Latin-2): Wird für mittel- und osteuropäische Sprachen (Polnisch, Tschechisch, Ungarisch usw.) verwendet.
  • ISO-8859-5 (Kyrillisch): Ein Standard für Russisch und andere auf Kyrillisch basierende Sprachen.
  • ISO-8859-6 (Arabisch): Der Standard für die arabische Sprache.
  • ISO-8859-7 (Griechisch): Der Standard für modernes Griechisch.
  • ISO-8859-8 (Hebräisch): Der Standard für die hebräische Sprache.
  • ISO-8859-9 (Türkisch): Eine Anpassung von ISO-8859-1 für die türkische Sprache.
  • ISO-8859-15 (Latin-9): Eine moderne Aktualisierung von ISO-8859-1, die das Euro-Symbol (€) und mehrere fehlende französische/finnische Buchstaben enthält.

2. Die Windows-125x-Familie (Die Microsoft-Erweiterungen)

Microsoft entwickelte eigene 8-Bit-Kodierungen, die oft auf den ISO-8859-Standards basieren, aber proprietäre Modifikationen enthalten.

  • Windows-1252 (Westlich): Der Standard für englische und westeuropäische Versionen älterer Windows-Systeme. Er ist fast identisch mit ISO-8859-1, verwendet aber den Bereich der „C1-Steuercodes“ für druckbare Zeichen wie typografische Anführungszeichen und das Euro-Symbol.
  • Windows-1251 (Kyrillisch): Die beliebteste Legacy-Kodierung für Russisch, Bulgarisch und Serbisch in Windows-Umgebungen.
  • Windows-1250 (Mitteleuropa): Microsofts Version von Latin-2 für Windows.
  • Windows-1256 (Arabisch): Eine gängige Windows-Kodierung für Arabisch.

3. Spezialisierte Legacy-Kodierungen: KOI8-R

Vor dem Aufstieg von Windows-1251 und Unicode verwendeten Unix- und frühe Internetsysteme in Russland KOI8-R (Kod Obmena Informatsiey 8-bit). Im Gegensatz zu anderen Kodierungen wurde KOI8-R so konzipiert, dass russische Zeichen lateinischen Buchstaben mit ähnlichen Lauten zugeordnet wurden, wenn das oberste Bit entfernt wurde. So blieb der Text auf Systemen, die nur 7-Bit-ASCII unterstützten, teilweise lesbar.


4. Tabelle zum technischen Vergleich

Kodierungsfamilie Zielregionen Bester Anwendungsfall Unicode-Alternative
ISO-8859-1 Westeuropa Legacy Web / Unix UTF-8
Windows-1252 Westeuropa Legacy Windows-Apps UTF-8
ISO-8859-5 Osteuropa Legacy-kyrillische Systeme UTF-8
Windows-1251 Osteuropa Legacy Windows (RU) UTF-8
KOI8-R Russland Legacy Unix / E-Mail UTF-8
ISO-8859-6 Naher Osten Legacy arabisches Web UTF-8

5. FAQ: Häufig gestellte Fragen

F: Warum werden meine typografischen Anführungszeichen („“ ) zu seltsamen Symbolen?

A: Dies liegt meist an einer Diskrepanz zwischen ISO-8859-1 und Windows-1252. ISO-8859-1 enthält keine typografischen Anführungszeichen, Windows-1252 hingegen schon. Wenn Sie Windows-1252-Text als ISO-8859-1 lesen, werden diese Zeichen beschädigt.

F: Was ist der Unterschied zwischen ISO-8859-1 und UTF-8?

A: ISO-8859-1 ist eine 8-Bit-Kodierung mit fester Breite, die nur 256 Zeichen darstellen kann. UTF-8 ist eine Kodierung mit variabler Breite, die über 1,1 Millionen Zeichen aus jeder Sprache der Welt darstellen kann.

F: Wie stelle ich Text aus einer alten Datenbank wieder her?

A: Sie müssen die ursprüngliche Kodierung der Daten identifizieren (z. B. Windows-1251 für eine russische Datenbank) und einen geeigneten Decoder verwenden, um sie in UTF-8 zu übersetzen.


6. Legacy-Kodierungen meistern mit Tool3M

Lassen Sie Altdaten nicht zum Albtraum werden. Tool3M bietet eine professionelle Suite zur Reparatur und Konvertierung regionaler Kodierungen:

  • ISO-8859-Serie Decoder & Encoder: Unterstützung für alle 15 Teile des ISO-8859-Standards.
  • Windows-Codepage-Konverter: Reibungslose Handhabung von Windows-1250, 1251, 1252 und mehr.
  • KOI8-R Wiederherstellungstool: Wiederherstellung von veraltetem russischem Text aus Unix-Systemen.
  • Globaler Kodierungs-Detektor: Identifizieren Sie die Quellkodierung jeder geheimnisvollen Datei.

Verwandte Leitfäden