La guía definitiva de las codificaciones de caracteres chinos: GB18030, GBK, Big5 y más
El procesamiento de texto en chino en el desarrollo de software presenta desafíos únicos. A diferencia de los idiomas basados en el alfabeto latino, el chino requiere miles de caracteres, lo que ha llevado a una historia compleja de estándares de codificación. Desde el temprano GB2312 hasta el moderno y obligatorio GB18030, pasando por el ubicuo Big5 utilizado en Taiwán y Hong Kong, comprender estos estándares es esencial para cualquier desarrollador que trabaje con datos del este de Asia.
En esta guía, exploraremos los detalles técnicos de las codificaciones chinas, cómo manejar las conversiones a UTF-8 y las transformaciones de texto especializadas que a menudo se requieren en el software chino.
1. Los estándares de chino simplificado: familia GB
En China continental, los estándares nacionales (Guobiao, o GB) dictan cómo se codifican los caracteres chinos simplificados.
GB2312 (La base)
Lanzado en 1980, GB2312 fue el primer estándar importante. Utiliza un sistema de codificación de 2 bytes y admite 6.763 caracteres chinos. Si bien cubre el 99,75% de los caracteres de uso común, carece de soporte para muchos nombres raros y caracteres tradicionales.
GBK (La extensión común)
GBK (Guobiao Kuozhan) se introdujo en 1995 como una extensión de GB2312. Agregó soporte para caracteres chinos tradicionales y símbolos raros, manteniendo la compatibilidad con GB2312.
- Palabras clave: codificador decodificador GBK, de GBK a UTF-8.
GB18030 (El estándar obligatorio moderno)
GB18030 es el estándar obligatorio actual en la República Popular China. Es una codificación de ancho variable (que utiliza 1, 2 o 4 bytes) que admite todo el conjunto de caracteres Unicode.
- Por qué es importante: el software vendido en China está obligado legalmente a admitir GB18030. Incluye soporte para idiomas minoritarios (como el tibetano y el uigur) y mapeo para cada punto de código Unicode.
- Palabras clave: codificador decodificador GB18030.
2. El estándar de chino tradicional: Big5
Mientras que China continental adoptó los estándares GB, Taiwán, Hong Kong y Macao utilizaron principalmente Big5.
¿Qué es Big5?
Desarrollado en 1984 por cinco importantes empresas tecnológicas, Big5 es un sistema de codificación de 2 bytes para chino tradicional. Admite más de 13.000 caracteres. Sin embargo, es famoso por haber sufrido "conflictos" entre diferentes implementaciones de proveedores, lo que llevó a varias extensiones como Big5-HKSCS (para Hong Kong).
- Palabras clave: codificador decodificador Big5, de Big5 a UTF-8.
3. Más allá de la codificación básica: transformaciones esenciales de texto chino
La codificación es solo la mitad de la batalla. El procesamiento de texto chino a menudo requiere transformaciones semánticas y estilísticas.
Conversión de chino simplificado a tradicional
La conversión entre chino simplificado (China continental) y tradicional (Taiwán/HK) no es un simple mapeo 1 a 1. Un solo carácter simplificado puede mapearse a múltiples caracteres tradicionales dependiendo del contexto. Los convertidores profesionales de chino simplificado a tradicional deben utilizar diccionarios lingüísticos para garantizar la precisión.
Ancho completo frente a medio ancho (Zenkaku/Hankaku)
En la tipografía china, los caracteres suelen ser de "ancho completo" (ocupando un bloque cuadrado). Sin embargo, los números y las letras latinas pueden ser de "medio ancho" (estrechos). Los desarrolladores a menudo necesitan un convertidor de ancho completo a medio ancho para normalizar la entrada en bases de datos y formularios.
Convertidores de números y monedas chinos
El chino utiliza sistemas de numeración únicos. Para aplicaciones financieras, se utilizan "números contables" (Daxie) para prevenir el fraude.
- Convertidor de números chinos: convierte dígitos estándar (123) en caracteres chinos (一百二十三).
- Convertidor de cantidades de capital chino: convierte números a la versión contable formal (壹佰贰拾叁) para su uso en cheques y facturas.
Pinyin y fonética
Pinyin es el sistema de romanización estándar para el mandarín. Convertir caracteres a Pinyin es vital para la indexación de búsqueda, los métodos de entrada (IME) y las herramientas educativas.
- Palabras clave: convertidor de chino a Pinyin.
4. Tabla de comparación técnica
| Codificación | Región | Tipo | ¿Compatible con Unicode? | Bytes por carácter |
|---|---|---|---|---|
| GB2312 | Continental | Simplificado | No | 2 |
| GBK | Continental | Simpl./Trad. | No | 2 |
| GB18030 | Continental | Universal | Sí | 1, 2 o 4 |
| Big5 | TW/HK | Tradicional | No | 2 |
| UTF-8 | Global | Universal | Sí | 1 a 4 |
5. FAQ: Preguntas frecuentes
P: ¿Por qué veo "Mojibake" (乱码) al abrir un archivo de texto en chino?
R: Esto suele suceder cuando un archivo codificado en GBK o Big5 se abre como UTF-8 (o viceversa). Utilice un convertidor de GBK a UTF-8 o de Big5 a UTF-8 para corregir el mapeo.
P: ¿Es GB18030 compatible con UTF-8?
R: No. Si bien ambos admiten todos los caracteres Unicode, utilizan diferentes secuencias de bytes. Debe utilizar un codificador decodificador GB18030 adecuado para traducir entre ellos.
P: ¿Debo usar GB18030 o UTF-8 para mi nueva aplicación?
R: Para la gran mayoría de las aplicaciones web y móviles, UTF-8 es la mejor opción. Solo use GB18030 si tiene requisitos de cumplimiento específicos para el mercado chino o si está tratando con datos heredados del gobierno chino.
6. Dominando los datos chinos con Tool3M
¿Tiene problemas con las codificaciones chinas heredadas? Nuestra suite de herramientas puede ayudar:
- Codificador y decodificador GBK/GB18030: repare texto confuso y convierta archivos heredados.
- Convertidor de Big5 a UTF-8: procese datos en chino tradicional con facilidad.
- Convertidor simplificado/tradicional: conversión lingüística de alta precisión.
- Convertidor de cantidades de capital chino: genere texto financiero formal al instante.
- Convertidor de Pinyin: romanice instantáneamente cualquier texto en chino para SEO o indexación.