Guía de codificaciones heredadas globales: Entendiendo las familias ISO-8859 y Windows-125x
Aunque UTF-8 es ahora el estándar global, millones de archivos, bases de datos y sistemas heredados en todo el mundo todavía utilizan codificaciones de caracteres regionales de 8 bits. Para desarrolladores, científicos de datos y profesionales de TI, comprender estos estándares heredados es esencial para prevenir la corrupción de datos y reparar el "texto ilegible" (Mojibake).
En esta guía, exploraremos las familias de codificación regional más comunes, incluyendo la serie ISO-8859 y las páginas de códigos Windows-125x de Microsoft.
1. La serie ISO-8859 (Los estándares globales)
Los estándares ISO-8859 son los estándares internacionales originales para codificaciones de caracteres de 8 bits. Cada parte del estándar está diseñada para una región o familia de lenguas específica.
- ISO-8859-1 (Latin-1): La codificación de 8 bits más utilizada, que cubre las lenguas de Europa occidental (inglés, francés, alemán, español, etc.).
- ISO-8859-2 (Latin-2): Utilizada para lenguas de Europa central y oriental (polaco, checo, húngaro, etc.).
- ISO-8859-5 (Cirílico): Un estándar para el ruso y otras lenguas basadas en el cirílico.
- ISO-8859-6 (Árabe): El estándar para la lengua árabe.
- ISO-8859-7 (Griego): El estándar para el griego moderno.
- ISO-8859-8 (Hebreo): El estándar para la lengua hebrea.
- ISO-8859-9 (Turco): Una adaptación de ISO-8859-1 para la lengua turca.
- ISO-8859-15 (Latin-9): Una actualización moderna de ISO-8859-1 que incluye el símbolo del euro (€) y varias letras francesas y finlandesas que faltaban.
2. La familia Windows-125x (Las extensiones de Microsoft)
Microsoft desarrolló su propio conjunto de codificaciones de 8 bits, a menudo basadas en los estándares ISO-8859 pero con modificaciones propietarias.
- Windows-1252 (Occidental): El valor predeterminado para las versiones de Windows antiguas en inglés y Europa occidental. Es casi idéntico a ISO-8859-1 pero utiliza el rango de "códigos de control C1" para caracteres imprimibles como las comillas tipográficas y el símbolo del euro.
- Windows-1251 (Cirílico): La codificación heredada más popular para el ruso, búlgaro y serbio en entornos Windows.
- Windows-1250 (Europa Central): La versión de Microsoft de Latin-2 para Windows.
- Windows-1256 (Árabe): Una codificación de Windows común para el árabe.
3. Codificaciones heredadas especializadas: KOI8-R
Antes del auge de Windows-1251 y Unicode, los sistemas Unix y los primeros sistemas de Internet en Rusia utilizaban KOI8-R (Kod Obmena Informatsiey 8-bit). A diferencia de otras codificaciones, KOI8-R fue diseñado para que los caracteres rusos se mapearan a letras latinas con sonidos similares si se eliminaba el bit superior, lo que permitía que el texto siguiera siendo parcialmente legible en sistemas que solo soportaban ASCII de 7 bits.
4. Tabla de comparación técnica
| Familia de codificación | Regiones objetivo | Mejor caso de uso | Alternativa Unicode |
|---|---|---|---|
| ISO-8859-1 | Europa Occidental | Web heredada / Unix | UTF-8 |
| Windows-1252 | Europa Occidental | Apps Windows heredadas | UTF-8 |
| ISO-8859-5 | Europa Oriental | Sistemas cirílicos heredados | UTF-8 |
| Windows-1251 | Europa Oriental | Windows heredado (RU) | UTF-8 |
| KOI8-R | Rusia | Unix heredado / Email | UTF-8 |
| ISO-8859-6 | Oriente Medio | Web árabe heredada | UTF-8 |
5. FAQ: Preguntas frecuentes
P: ¿Por qué mis "comillas tipográficas" (“” ) se convierten en símbolos extraños?
R: Esto suele ser un desajuste entre ISO-8859-1 y Windows-1252. ISO-8859-1 no incluye comillas tipográficas, mientras que Windows-1252 sí. Si lee texto en Windows-1252 como ISO-8859-1, esos caracteres se corromperán.
P: ¿Cuál es la diferencia entre ISO-8859-1 y UTF-8?
R: ISO-8859-1 es una codificación de 8 bits de ancho fijo que solo puede representar 256 caracteres. UTF-8 es una codificación de ancho variable que puede representar más de 1.1 millones de caracteres de todos los idiomas del mundo.
P: ¿Cómo recupero texto de una base de datos heredada?
R: Debe identificar la codificación original de los datos (por ejemplo, Windows-1251 para una base de datos rusa) y utilizar un decodificador adecuado para traducirlo a UTF-8.
6. Domine las codificaciones heredadas con Tool3M
No deje que los datos heredados se conviertan en una pesadilla. Tool3M ofrece una suite profesional para reparar y convertir codificaciones regionales:
- Decodificador y codificador de la serie ISO-8859: Soporte para las 15 partes del estándar ISO-8859.
- Conversor de páginas de códigos de Windows: Maneje sin problemas Windows-1250, 1251, 1252 y más.
- Herramienta de recuperación KOI8-R: Restaure texto ruso heredado de sistemas Unix.
- Detector de codificación global: Identifique la codificación de origen de cualquier archivo misterioso.