Guia de Codificações Legadas Globais: Entendendo as Famílias ISO-8859 e Windows-125x
Embora o UTF-8 seja agora o padrão global, milhões de arquivos, bancos de dados e sistemas legados em todo o mundo ainda usam codificações de caracteres regionais de 8 bits. Para desenvolvedores, cientistas de dados e profissionais de TI, entender esses padrões legados é essencial para evitar a corrupção de dados e reparar o "texto distorcido" (Mojibake).
Neste guia, exploraremos as famílias de codificação regional mais comuns, incluindo a série ISO-8859 e as páginas de código Windows-125x da Microsoft.
1. A Série ISO-8859 (Os Padrões Globais)
Os padrões ISO-8859 são os padrões internacionais originais para codificações de caracteres de 8 bits. Cada parte do padrão é projetada para uma região ou família de idiomas específica.
- ISO-8859-1 (Latin-1): A codificação de 8 bits mais usada, cobrindo idiomas da Europa Ocidental (inglês, francês, alemão, espanhol, etc.).
- ISO-8859-2 (Latin-2): Usado para idiomas da Europa Central e Oriental (polonês, tcheco, húngaro, etc.).
- ISO-8859-5 (Cirílico): Um padrão para o russo e outros idiomas baseados no cirílico.
- ISO-8859-6 (Árabe): O padrão para o idioma árabe.
- ISO-8859-7 (Grego): O padrão para o grego moderno.
- ISO-8859-8 (Hebraico): O padrão para o idioma hebraico.
- ISO-8859-9 (Turco): Uma adaptação do ISO-8859-1 para o idioma turco.
- ISO-8859-15 (Latin-9): Uma atualização moderna do ISO-8859-1 que inclui o símbolo do euro (€) e várias letras francesas/finlandesas ausentes.
2. A Família Windows-125x (As Extensões da Microsoft)
A Microsoft desenvolveu seu próprio conjunto de codificações de 8 bits, muitas vezes baseadas nos padrões ISO-8859, mas com modificações proprietárias.
- Windows-1252 (Ocidental): O padrão para as versões em inglês e da Europa Ocidental de gerações anteriores do Windows. É quase idêntico ao ISO-8859-1, mas usa o intervalo de "códigos de controle C1" para caracteres imprimíveis como aspas curvas e o símbolo do euro.
- Windows-1251 (Cirílico): A codificação legada mais popular para russo, búlgaro e sérvio em ambientes Windows.
- Windows-1250 (Europa Central): A versão da Microsoft do Latin-2 para Windows.
- Windows-1256 (Árabe): Uma codificação comum do Windows para o árabe.
3. Codificações Legadas Especializadas: KOI8-R
Antes da ascensão do Windows-1251 e do Unicode, sistemas Unix e os primeiros sistemas de internet na Rússia usavam o KOI8-R (Kod Obmena Informatsiey 8-bit). Ao contrário de outras codificações, o KOI8-R foi projetado para que os caracteres russos fossem mapeados para letras latinas com sons semelhantes se o bit superior fosse removido, permitindo que o texto permanecesse parcialmente legível em sistemas que suportavam apenas ASCII de 7 bits.
4. Tabela de Comparação Técnica
| Família de Codificação | Regiões Alvo | Melhor Caso de Uso | Alternativa Unicode |
|---|---|---|---|
| ISO-8859-1 | Europa Ocidental | Web Legada / Unix | UTF-8 |
| Windows-1252 | Europa Ocidental | Apps Windows Legados | UTF-8 |
| ISO-8859-5 | Europa Oriental | Sistemas Cirílicos Legados | UTF-8 |
| Windows-1251 | Europa Oriental | Windows Legado (RU) | UTF-8 |
| KOI8-R | Rússia | Unix Legado / E-mail | UTF-8 |
| ISO-8859-6 | Oriente Médio | Web Árabe Legada | UTF-8 |
5. FAQ: Perguntas Frequentes
P: Por que minhas "aspas curvas" (“” ) se transformam em símbolos estranhos?
R: Isso geralmente é uma incompatibilidade entre o ISO-8859-1 e o Windows-1252. O ISO-8859-1 não inclui aspas curvas, enquanto o Windows-1252 inclui. Se você ler o texto Windows-1252 como ISO-8859-1, esses caracteres serão corrompidos.
P: Qual é a diferença entre ISO-8859-1 e UTF-8?
R: O ISO-8859-1 é uma codificação de 8 bits de largura fixa que só pode representar 256 caracteres. O UTF-8 é uma codificação de largura variável que pode representar mais de 1,1 milhão de caracteres de todos os idiomas do mundo.
P: Como recupero texto de um banco de dados legado?
R: Você deve identificar a codificação original dos dados (por exemplo, Windows-1251 para um banco de dados russo) e usar um decodificador adequado para traduzi-lo para UTF-8.
6. Domine Codificações Legadas com Tool3M
Não deixe que dados legados se tornem um pesadelo. O Tool3M oferece um pacote profissional para reparar e converter codificações regionais:
- Decodificador e Codificador da Série ISO-8859: Suporte para todas as 15 partes do padrão ISO-8859.
- Conversor de Página de Código Windows: Lide perfeitamente com Windows-1250, 1251, 1252 e mais.
- Ferramenta de Recuperação KOI8-R: Restaure texto russo legado de sistemas Unix.
- Detector de Codificação Global: Identifique a codificação de origem de qualquer arquivo misterioso.
Guias Relacionados
- O Guia Definitivo para Codificações de Caracteres e Unicode
- Resolvendo Problemas de Codificação de Caracteres e Mojibake
- O Guia Definitivo para Codificações de Caracteres Chineses