encoding iso-8859 windows-1252 koi8-r i18n

Guía de codificaciones heredadas globales: Entendiendo las familias ISO-8859 y Windows-125x

Una guía completa sobre las codificaciones de caracteres heredadas, incluyendo Latin-1, Windows-1252 y estándares cirílicos como ISO-8859-5 y KOI8-R.

2026-04-13

Guía de codificaciones heredadas globales: Entendiendo las familias ISO-8859 y Windows-125x

Aunque UTF-8 es ahora el estándar global, millones de archivos, bases de datos y sistemas heredados en todo el mundo todavía utilizan codificaciones de caracteres regionales de 8 bits. Para desarrolladores, científicos de datos y profesionales de TI, comprender estos estándares heredados es esencial para prevenir la corrupción de datos y reparar el "texto ilegible" (Mojibake).

En esta guía, exploraremos las familias de codificación regional más comunes, incluyendo la serie ISO-8859 y las páginas de códigos Windows-125x de Microsoft.


1. La serie ISO-8859 (Los estándares globales)

Los estándares ISO-8859 son los estándares internacionales originales para codificaciones de caracteres de 8 bits. Cada parte del estándar está diseñada para una región o familia de lenguas específica.

  • ISO-8859-1 (Latin-1): La codificación de 8 bits más utilizada, que cubre las lenguas de Europa occidental (inglés, francés, alemán, español, etc.).
  • ISO-8859-2 (Latin-2): Utilizada para lenguas de Europa central y oriental (polaco, checo, húngaro, etc.).
  • ISO-8859-5 (Cirílico): Un estándar para el ruso y otras lenguas basadas en el cirílico.
  • ISO-8859-6 (Árabe): El estándar para la lengua árabe.
  • ISO-8859-7 (Griego): El estándar para el griego moderno.
  • ISO-8859-8 (Hebreo): El estándar para la lengua hebrea.
  • ISO-8859-9 (Turco): Una adaptación de ISO-8859-1 para la lengua turca.
  • ISO-8859-15 (Latin-9): Una actualización moderna de ISO-8859-1 que incluye el símbolo del euro (€) y varias letras francesas y finlandesas que faltaban.

2. La familia Windows-125x (Las extensiones de Microsoft)

Microsoft desarrolló su propio conjunto de codificaciones de 8 bits, a menudo basadas en los estándares ISO-8859 pero con modificaciones propietarias.

  • Windows-1252 (Occidental): El valor predeterminado para las versiones de Windows antiguas en inglés y Europa occidental. Es casi idéntico a ISO-8859-1 pero utiliza el rango de "códigos de control C1" para caracteres imprimibles como las comillas tipográficas y el símbolo del euro.
  • Windows-1251 (Cirílico): La codificación heredada más popular para el ruso, búlgaro y serbio en entornos Windows.
  • Windows-1250 (Europa Central): La versión de Microsoft de Latin-2 para Windows.
  • Windows-1256 (Árabe): Una codificación de Windows común para el árabe.

3. Codificaciones heredadas especializadas: KOI8-R

Antes del auge de Windows-1251 y Unicode, los sistemas Unix y los primeros sistemas de Internet en Rusia utilizaban KOI8-R (Kod Obmena Informatsiey 8-bit). A diferencia de otras codificaciones, KOI8-R fue diseñado para que los caracteres rusos se mapearan a letras latinas con sonidos similares si se eliminaba el bit superior, lo que permitía que el texto siguiera siendo parcialmente legible en sistemas que solo soportaban ASCII de 7 bits.


4. Tabla de comparación técnica

Familia de codificación Regiones objetivo Mejor caso de uso Alternativa Unicode
ISO-8859-1 Europa Occidental Web heredada / Unix UTF-8
Windows-1252 Europa Occidental Apps Windows heredadas UTF-8
ISO-8859-5 Europa Oriental Sistemas cirílicos heredados UTF-8
Windows-1251 Europa Oriental Windows heredado (RU) UTF-8
KOI8-R Rusia Unix heredado / Email UTF-8
ISO-8859-6 Oriente Medio Web árabe heredada UTF-8

5. FAQ: Preguntas frecuentes

P: ¿Por qué mis "comillas tipográficas" (“” ) se convierten en símbolos extraños?

R: Esto suele ser un desajuste entre ISO-8859-1 y Windows-1252. ISO-8859-1 no incluye comillas tipográficas, mientras que Windows-1252 sí. Si lee texto en Windows-1252 como ISO-8859-1, esos caracteres se corromperán.

P: ¿Cuál es la diferencia entre ISO-8859-1 y UTF-8?

R: ISO-8859-1 es una codificación de 8 bits de ancho fijo que solo puede representar 256 caracteres. UTF-8 es una codificación de ancho variable que puede representar más de 1.1 millones de caracteres de todos los idiomas del mundo.

P: ¿Cómo recupero texto de una base de datos heredada?

R: Debe identificar la codificación original de los datos (por ejemplo, Windows-1251 para una base de datos rusa) y utilizar un decodificador adecuado para traducirlo a UTF-8.


6. Domine las codificaciones heredadas con Tool3M

No deje que los datos heredados se conviertan en una pesadilla. Tool3M ofrece una suite profesional para reparar y convertir codificaciones regionales:

  • Decodificador y codificador de la serie ISO-8859: Soporte para las 15 partes del estándar ISO-8859.
  • Conversor de páginas de códigos de Windows: Maneje sin problemas Windows-1250, 1251, 1252 y más.
  • Herramienta de recuperación KOI8-R: Restaure texto ruso heredado de sistemas Unix.
  • Detector de codificación global: Identifique la codificación de origen de cualquier archivo misterioso.

Guías relacionadas