Globaler Leitfaden für Legacy-Kodierungen: Verständnis der ISO-8859- und Windows-125x-Familien
Obwohl UTF-8 heute der globale Standard ist, verwenden Millionen von Dateien, Datenbanken und Altsystemen weltweit immer noch regionale 8-Bit-Zeichenkodierungen. Für Entwickler, Datenwissenschaftler und IT-Experten ist das Verständnis dieser Legacy-Standards unerlässlich, um Datenkorruption zu verhindern und „Zeichensalat“ (Mojibake) zu reparieren.
In diesem Leitfaden untersuchen wir die gängigsten regionalen Kodierungsfamilien, einschließlich der ISO-8859-Serie und der Windows-125x-Codepages von Microsoft.
1. Die ISO-8859-Serie (Die globalen Standards)
Die ISO-8859-Standards sind die ursprünglichen internationalen Standards für 8-Bit-Zeichenkodierungen. Jeder Teil des Standards ist für eine bestimmte Region oder Sprachfamilie konzipiert.
- ISO-8859-1 (Latin-1): Die am weitesten verbreitete 8-Bit-Kodierung, die westeuropäische Sprachen (Englisch, Französisch, Deutsch, Spanisch usw.) abdeckt.
- ISO-8859-2 (Latin-2): Wird für mittel- und osteuropäische Sprachen (Polnisch, Tschechisch, Ungarisch usw.) verwendet.
- ISO-8859-5 (Kyrillisch): Ein Standard für Russisch und andere auf Kyrillisch basierende Sprachen.
- ISO-8859-6 (Arabisch): Der Standard für die arabische Sprache.
- ISO-8859-7 (Griechisch): Der Standard für modernes Griechisch.
- ISO-8859-8 (Hebräisch): Der Standard für die hebräische Sprache.
- ISO-8859-9 (Türkisch): Eine Anpassung von ISO-8859-1 für die türkische Sprache.
- ISO-8859-15 (Latin-9): Eine moderne Aktualisierung von ISO-8859-1, die das Euro-Symbol (€) und mehrere fehlende französische/finnische Buchstaben enthält.
2. Die Windows-125x-Familie (Die Microsoft-Erweiterungen)
Microsoft entwickelte eigene 8-Bit-Kodierungen, die oft auf den ISO-8859-Standards basieren, aber proprietäre Modifikationen enthalten.
- Windows-1252 (Westlich): Der Standard für englische und westeuropäische Versionen älterer Windows-Systeme. Er ist fast identisch mit ISO-8859-1, verwendet aber den Bereich der „C1-Steuercodes“ für druckbare Zeichen wie typografische Anführungszeichen und das Euro-Symbol.
- Windows-1251 (Kyrillisch): Die beliebteste Legacy-Kodierung für Russisch, Bulgarisch und Serbisch in Windows-Umgebungen.
- Windows-1250 (Mitteleuropa): Microsofts Version von Latin-2 für Windows.
- Windows-1256 (Arabisch): Eine gängige Windows-Kodierung für Arabisch.
3. Spezialisierte Legacy-Kodierungen: KOI8-R
Vor dem Aufstieg von Windows-1251 und Unicode verwendeten Unix- und frühe Internetsysteme in Russland KOI8-R (Kod Obmena Informatsiey 8-bit). Im Gegensatz zu anderen Kodierungen wurde KOI8-R so konzipiert, dass russische Zeichen lateinischen Buchstaben mit ähnlichen Lauten zugeordnet wurden, wenn das oberste Bit entfernt wurde. So blieb der Text auf Systemen, die nur 7-Bit-ASCII unterstützten, teilweise lesbar.
4. Tabelle zum technischen Vergleich
| Kodierungsfamilie | Zielregionen | Bester Anwendungsfall | Unicode-Alternative |
|---|---|---|---|
| ISO-8859-1 | Westeuropa | Legacy Web / Unix | UTF-8 |
| Windows-1252 | Westeuropa | Legacy Windows-Apps | UTF-8 |
| ISO-8859-5 | Osteuropa | Legacy-kyrillische Systeme | UTF-8 |
| Windows-1251 | Osteuropa | Legacy Windows (RU) | UTF-8 |
| KOI8-R | Russland | Legacy Unix / E-Mail | UTF-8 |
| ISO-8859-6 | Naher Osten | Legacy arabisches Web | UTF-8 |
5. FAQ: Häufig gestellte Fragen
F: Warum werden meine typografischen Anführungszeichen („“ ) zu seltsamen Symbolen?
A: Dies liegt meist an einer Diskrepanz zwischen ISO-8859-1 und Windows-1252. ISO-8859-1 enthält keine typografischen Anführungszeichen, Windows-1252 hingegen schon. Wenn Sie Windows-1252-Text als ISO-8859-1 lesen, werden diese Zeichen beschädigt.
F: Was ist der Unterschied zwischen ISO-8859-1 und UTF-8?
A: ISO-8859-1 ist eine 8-Bit-Kodierung mit fester Breite, die nur 256 Zeichen darstellen kann. UTF-8 ist eine Kodierung mit variabler Breite, die über 1,1 Millionen Zeichen aus jeder Sprache der Welt darstellen kann.
F: Wie stelle ich Text aus einer alten Datenbank wieder her?
A: Sie müssen die ursprüngliche Kodierung der Daten identifizieren (z. B. Windows-1251 für eine russische Datenbank) und einen geeigneten Decoder verwenden, um sie in UTF-8 zu übersetzen.
6. Legacy-Kodierungen meistern mit Tool3M
Lassen Sie Altdaten nicht zum Albtraum werden. Tool3M bietet eine professionelle Suite zur Reparatur und Konvertierung regionaler Kodierungen:
- ISO-8859-Serie Decoder & Encoder: Unterstützung für alle 15 Teile des ISO-8859-Standards.
- Windows-Codepage-Konverter: Reibungslose Handhabung von Windows-1250, 1251, 1252 und mehr.
- KOI8-R Wiederherstellungstool: Wiederherstellung von veraltetem russischem Text aus Unix-Systemen.
- Globaler Kodierungs-Detektor: Identifizieren Sie die Quellkodierung jeder geheimnisvollen Datei.