encoding chinese gb18030 gbk big5 i18n

O Guia Definitivo para Codificações de Caracteres Chineses: GB18030, GBK, Big5 e Além

Domine o processamento de texto em chinês com este mergulho profundo em GB18030, GBK, GB2312 e Big5. Aprenda sobre conversão de codificação, chinês simplificado vs. tradicional e conversores especializados.

2026-04-13

O Guia Definitivo para Codificações de Caracteres Chineses: GB18030, GBK, Big5 e Além

O processamento de texto em chinês no desenvolvimento de software apresenta desafios únicos. Ao contrário das línguas baseadas no latim, o chinês requer milhares de caracteres, o que levou a uma história complexa de padrões de codificação. Desde o antigo GB2312 até o moderno e obrigatório GB18030, passando pelo onipresente Big5 usado em Taiwan e Hong Kong, entender esses padrões é essencial para qualquer desenvolvedor que trabalhe com dados do Leste Asiático.

Neste guia, exploraremos os detalhes técnicos das codificações chinesas, como lidar com conversões para UTF-8 e as transformações de texto especializadas frequentemente exigidas em softwares chineses.


1. Os Padrões de Chinês Simplificado: Família GB

Na China Continental, os padrões nacionais (Guobiao, ou GB) ditam como os caracteres chineses simplificados são codificados.

GB2312 (A Fundação)

Lançado em 1980, o GB2312 foi o primeiro grande padrão. Ele usa um sistema de codificação de 2 bytes e suporta 6.763 caracteres chineses. Embora cubra 99,75% dos caracteres comumente usados, carece de suporte para muitos nomes raros e caracteres tradicionais.

GBK (A Extensão Comum)

O GBK (Guobiao Kuozhan) foi introduzido em 1995 como uma extensão do GB2312. Adicionou suporte para caracteres chineses tradicionais e símbolos raros, mantendo a compatibilidade retroativa com o GB2312.

  • Palavras-chave: codificador decodificador GBK, GBK para UTF-8.

GB18030 (O Padrão Obrigatório Moderno)

O GB18030 é o padrão obrigatório atual na República Popular da China. É uma codificação de largura variável (usando 1, 2 ou 4 bytes) que suporta todo o conjunto de caracteres Unicode.

  • Por que isso importa: Softwares vendidos na China são legalmente obrigados a suportar o GB18030. Inclui suporte para línguas minoritárias (como tibetano e uigur) e mapeamento para cada ponto de código Unicode.
  • Palavras-chave: codificador decodificador GB18030.

2. O Padrão de Chinês Tradicional: Big5

Enquanto a China Continental adotou os padrões GB, Taiwan, Hong Kong e Macau usaram amplamente o Big5.

O que é o Big5?

Desenvolvido em 1984 por cinco grandes empresas de tecnologia, o Big5 é um sistema de codificação de 2 bytes para chinês tradicional. Suporta mais de 13.000 caracteres. No entanto, é famoso por ter sofrido com "conflitos" entre diferentes implementações de fornecedores, levando a várias extensões como o Big5-HKSCS (para Hong Kong).

  • Palavras-chave: codificador decodificador Big5, Big5 para UTF-8.

3. Além da Codificação Básica: Transformações Essenciais de Texto Chinês

A codificação é apenas metade da batalha. O processamento de texto em chinês muitas vezes requer transformações semânticas e estilísticas.

Conversão de Chinês Simplificado para Tradicional

A conversão entre chinês simplificado (China Continental) e tradicional (Taiwan/HK) não é um simples mapeamento 1 para 1. Um único caractere simplificado pode mapear para múltiplos caracteres tradicionais, dependendo do contexto. Conversores profissionais de chinês simplificado para tradicional devem usar dicionários linguísticos para garantir a precisão.

Largura Total vs. Meia Largura (Zenkaku/Hankaku)

Na tipografia chinesa, os caracteres são geralmente de "largura total" (ocupando um bloco quadrado). No entanto, números e letras latinas podem ser de "meia largura" (estreitos). Os desenvolvedores muitas vezes precisam de um conversor de largura total para meia largura para normalizar a entrada em bancos de dados e formulários.

Conversores de Números e Moedas Chinesas

O chinês usa sistemas de numeração exclusivos. Para aplicações financeiras, os "Números Contábeis" (Daxie) são usados para evitar fraudes.

  • Conversor de números chineses: Converte dígitos padrão (123) em caracteres chineses (一百二十三).
  • Conversor de valor por extenso chinês: Converte números para a versão contábil formal (壹佰贰拾叁) para uso em cheques e faturas.

Pinyin e Fonética

Pinyin é o sistema de romanização padrão para o mandarim. Converter caracteres para Pinyin é vital para indexação de busca, métodos de entrada (IME) e ferramentas educacionais.

  • Palavras-chave: conversor de chinês para Pinyin.

4. Tabela de Comparação Técnica

Codificação Região Tipo Compatível com Unicode? Bytes por Caractere
GB2312 Continental Simplificado Não 2
GBK Continental Simpl./Trad. Não 2
GB18030 Continental Universal Sim 1, 2 ou 4
Big5 TW/HK Tradicional No 2
UTF-8 Global Universal Sim 1 a 4

5. FAQ: Perguntas Frequentes

P: Por que vejo "Mojibake" (乱码) ao abrir um arquivo de texto em chinês?

R: Isso geralmente acontece quando um arquivo codificado em GBK ou Big5 é aberto como UTF-8 (ou vice-versa). Use um conversor de GBK para UTF-8 ou Big5 para UTF-8 para corrigir o mapeamento.

P: O GB18030 é compatível com UTF-8?

R: Não. Embora ambos suportem todos os caracteres Unicode, eles usam sequências de bytes diferentes. Você deve usar um codificador decodificador GB18030 adequado para traduzir entre eles.

P: Devo usar GB18030 ou UTF-8 para meu novo app?

R: Para a grande maioria das aplicações web e móveis, o UTF-8 é a melhor escolha. Use o GB18030 apenas se tiver requisitos de conformidade específicos para o mercado chinês ou se estiver lidando com dados herdados do governo chinês.


6. Dominando Dados Chineses com a Tool3M

Lutando com codificações chinesas legadas? Nossa suíte de ferramentas pode ajudar:

  • Codificador e Decodificador GBK/GB18030: Repare textos distorcidos e converta arquivos legados.
  • Conversor de Big5 para UTF-8: Processe dados em chinês tradicional com facilidade.
  • Conversor Simplificado/Tradicional: Conversão linguística de alta precisão.
  • Conversor de Valor por Extenso Chinês: Gere texto financeiro formal instantaneamente.
  • Conversor de Pinyin: Romanize instantaneamente qualquer texto em chinês para SEO ou indexação.

Guias Relacionados