encoding iso-8859 windows-1252 koi8-r i18n

Guia de Codificações Legadas Globais: Entendendo as Famílias ISO-8859 e Windows-125x

Um guia completo sobre codificações de caracteres legadas, incluindo Latin-1, Windows-1252 e padrões cirílicos como ISO-8859-5 e KOI8-R.

2026-04-13

Guia de Codificações Legadas Globais: Entendendo as Famílias ISO-8859 e Windows-125x

Embora o UTF-8 seja agora o padrão global, milhões de arquivos, bancos de dados e sistemas legados em todo o mundo ainda usam codificações de caracteres regionais de 8 bits. Para desenvolvedores, cientistas de dados e profissionais de TI, entender esses padrões legados é essencial para evitar a corrupção de dados e reparar o "texto distorcido" (Mojibake).

Neste guia, exploraremos as famílias de codificação regional mais comuns, incluindo a série ISO-8859 e as páginas de código Windows-125x da Microsoft.


1. A Série ISO-8859 (Os Padrões Globais)

Os padrões ISO-8859 são os padrões internacionais originais para codificações de caracteres de 8 bits. Cada parte do padrão é projetada para uma região ou família de idiomas específica.

  • ISO-8859-1 (Latin-1): A codificação de 8 bits mais usada, cobrindo idiomas da Europa Ocidental (inglês, francês, alemão, espanhol, etc.).
  • ISO-8859-2 (Latin-2): Usado para idiomas da Europa Central e Oriental (polonês, tcheco, húngaro, etc.).
  • ISO-8859-5 (Cirílico): Um padrão para o russo e outros idiomas baseados no cirílico.
  • ISO-8859-6 (Árabe): O padrão para o idioma árabe.
  • ISO-8859-7 (Grego): O padrão para o grego moderno.
  • ISO-8859-8 (Hebraico): O padrão para o idioma hebraico.
  • ISO-8859-9 (Turco): Uma adaptação do ISO-8859-1 para o idioma turco.
  • ISO-8859-15 (Latin-9): Uma atualização moderna do ISO-8859-1 que inclui o símbolo do euro (€) e várias letras francesas/finlandesas ausentes.

2. A Família Windows-125x (As Extensões da Microsoft)

A Microsoft desenvolveu seu próprio conjunto de codificações de 8 bits, muitas vezes baseadas nos padrões ISO-8859, mas com modificações proprietárias.

  • Windows-1252 (Ocidental): O padrão para as versões em inglês e da Europa Ocidental de gerações anteriores do Windows. É quase idêntico ao ISO-8859-1, mas usa o intervalo de "códigos de controle C1" para caracteres imprimíveis como aspas curvas e o símbolo do euro.
  • Windows-1251 (Cirílico): A codificação legada mais popular para russo, búlgaro e sérvio em ambientes Windows.
  • Windows-1250 (Europa Central): A versão da Microsoft do Latin-2 para Windows.
  • Windows-1256 (Árabe): Uma codificação comum do Windows para o árabe.

3. Codificações Legadas Especializadas: KOI8-R

Antes da ascensão do Windows-1251 e do Unicode, sistemas Unix e os primeiros sistemas de internet na Rússia usavam o KOI8-R (Kod Obmena Informatsiey 8-bit). Ao contrário de outras codificações, o KOI8-R foi projetado para que os caracteres russos fossem mapeados para letras latinas com sons semelhantes se o bit superior fosse removido, permitindo que o texto permanecesse parcialmente legível em sistemas que suportavam apenas ASCII de 7 bits.


4. Tabela de Comparação Técnica

Família de Codificação Regiões Alvo Melhor Caso de Uso Alternativa Unicode
ISO-8859-1 Europa Ocidental Web Legada / Unix UTF-8
Windows-1252 Europa Ocidental Apps Windows Legados UTF-8
ISO-8859-5 Europa Oriental Sistemas Cirílicos Legados UTF-8
Windows-1251 Europa Oriental Windows Legado (RU) UTF-8
KOI8-R Rússia Unix Legado / E-mail UTF-8
ISO-8859-6 Oriente Médio Web Árabe Legada UTF-8

5. FAQ: Perguntas Frequentes

P: Por que minhas "aspas curvas" (“” ) se transformam em símbolos estranhos?

R: Isso geralmente é uma incompatibilidade entre o ISO-8859-1 e o Windows-1252. O ISO-8859-1 não inclui aspas curvas, enquanto o Windows-1252 inclui. Se você ler o texto Windows-1252 como ISO-8859-1, esses caracteres serão corrompidos.

P: Qual é a diferença entre ISO-8859-1 e UTF-8?

R: O ISO-8859-1 é uma codificação de 8 bits de largura fixa que só pode representar 256 caracteres. O UTF-8 é uma codificação de largura variável que pode representar mais de 1,1 milhão de caracteres de todos os idiomas do mundo.

P: Como recupero texto de um banco de dados legado?

R: Você deve identificar a codificação original dos dados (por exemplo, Windows-1251 para um banco de dados russo) e usar um decodificador adequado para traduzi-lo para UTF-8.


6. Domine Codificações Legadas com Tool3M

Não deixe que dados legados se tornem um pesadelo. O Tool3M oferece um pacote profissional para reparar e converter codificações regionais:

  • Decodificador e Codificador da Série ISO-8859: Suporte para todas as 15 partes do padrão ISO-8859.
  • Conversor de Página de Código Windows: Lide perfeitamente com Windows-1250, 1251, 1252 e mais.
  • Ferramenta de Recuperação KOI8-R: Restaure texto russo legado de sistemas Unix.
  • Detector de Codificação Global: Identifique a codificação de origem de qualquer arquivo misterioso.

Guias Relacionados

Guides connexes