encoding chinese gb18030 gbk big5 i18n

중국어 문자 인코딩 궁극 가이드: GB18030, GBK, Big5 및 그 이상

GB18030, GBK, GB2312 및 Big5에 대한 심층 분석을 통해 중국어 텍스트 처리를 마스터하세요. 인코딩 변환, 간체 및 번체 중국어, 전문 변환기에 대해 알아봅니다.

2026-04-13

중국어 문자 인코딩 궁극 가이드: GB18030, GBK, Big5 및 그 이상

소프트웨어 개발에서 중국어 텍스트를 처리하는 것은 독특한 과제를 안겨줍니다. 라틴어 기반 언어와 달리 중국어는 수천 개의 문자가 필요하며, 이로 인해 인코딩 표준의 복잡한 역사가 만들어졌습니다. 초기 GB2312부터 현대의 필수 표준인 GB18030, 그리고 대만과 홍콩에서 널리 사용되는 Big5에 이르기까지, 이러한 표준을 이해하는 것은 동아시아 데이터를 다루는 모든 개발자에게 필수적입니다.

이 가이드에서는 중국어 인코딩의 기술적 세부 사항, UTF-8로의 변환 방법, 그리고 중국어 소프트웨어에서 자주 요구되는 특수 텍스트 변환에 대해 알아봅니다.


1. 간체 중국어 표준: GB 제품군

중국 본토에서는 국가 표준(Guobiao, 줄여서 GB)이 간체 중국어 문자의 인코딩 방식을 규정합니다.

GB2312 (기초)

1980년에 발표된 GB2312는 최초의 주요 표준이었습니다. 2바이트 인코딩 시스템을 사용하며 6,763개의 한자를 지원합니다. 상용 한자의 99.75%를 커버하지만, 많은 희귀 성씨나 번체 문자가 누락되어 있습니다.

GBK (일반 확장)

GBK(Guobiao Kuozhan)는 1995년 GB2312의 확장으로 도입되었습니다. GB2312와 하위 호환성을 유지하면서 번체 중국어 문자와 희귀 기호에 대한 지원을 추가했습니다.

  • 키워드: GBK 인코더 디코더, GBK를 UTF-8로 변환.

GB18030 (현대 필수 표준)

GB18030은 현재 중화인민공화국의 필수 표준입니다. 가변 폭 인코딩(1, 2 또는 4바이트 사용)으로 전체 유니코드 문자 세트를 지원합니다.

  • 중요성: 중국에서 판매되는 소프트웨어는 법적으로 GB18030을 지원해야 합니다. 여기에는 소수 민족 언어(티베트어, 위구르어 등) 지원과 모든 유니코드 코드 포인트에 대한 매핑이 포함됩니다.
  • 키워드: GB18030 인코더 디코더.

2. 번체 중국어 표준: Big5

중국 본토가 GB 표준을 채택한 반면, 대만, 홍콩, 마카오는 주로 Big5를 사용했습니다.

Big5란 무엇인가요?

1984년 5개 주요 IT 기업이 개발한 Big5는 번체 중국어를 위한 2바이트 인코딩 시스템입니다. 13,000개 이상의 문자를 지원합니다. 하지만 업체별 구현 간의 "충돌"로 악명이 높았으며, 이로 인해 Big5-HKSCS(홍콩용)와 같은 다양한 확장판이 등장하게 되었습니다.

  • 키워드: Big5 인코더 디코더, Big5를 UTF-8로 변환.

3. 기본 인코딩 그 이상: 필수 중국어 텍스트 변환

인코딩은 시작일 뿐입니다. 중국어 텍스트 처리에는 종종 의미적 및 스타일적 변환이 필요합니다.

간체-번체 변환

간체(중국 본토)와 번체(대만/홍콩) 중국어 간의 변환은 단순한 1:1 매핑이 아닙니다. 문맥에 따라 하나의 간체 문자가 여러 번체 문자로 매핑될 수 있습니다. 전문적인 간체-번체 변환기는 정확성을 보장하기 위해 언어 사전을 사용해야 합니다.

전각 vs 반각 (Zenkaku/Hankaku)

중국어 타이포그래피에서 문자는 보통 "전각"(정사각형 블록 차지)입니다. 그러나 숫자와 라틴 문자는 "반각"(좁은 폭)일 수 있습니다. 개발자는 데이터베이스와 양식의 입력을 표준화하기 위해 전각-반각 변환기가 필요한 경우가 많습니다.

중국어 숫자 및 통화 변환기

중국어는 독특한 숫자 체계를 사용합니다. 금융 애플리케이션에서는 위조 방지를 위해 "대사(大寫) 숫자"를 사용합니다.

  • 중국어 숫자 변환기: 표준 숫자(123)를 중국어 문자(一百二十三)로 변환합니다.
  • 중국어 대문자 금액 변환기: 수표나 송장에서 사용하기 위해 숫자를 공식 회계용 버전(壹佰贰拾叁)으로 변환합니다.

병음(Pinyin) 및 발음

병음은 표준 중국어의 로마자 표기법입니다. 문자를 병음으로 변환하는 것은 검색 인덱싱, 입력기(IME) 및 교육용 도구에 필수적입니다.

  • 키워드: 중국어-병음 변환기.

4. 기술 비교표

인코딩 지역 유형 유니코드 호환? 문자당 바이트 수
GB2312 본토 간체 아니요 2
GBK 본토 간체/번체 아니요 2
GB18030 본토 유니버설 1, 2 또는 4
Big5 대만/홍콩 번체 아니요 2
UTF-8 글로벌 유니버설 1 ~ 4

5. FAQ: 자주 묻는 질문

Q: 중국어 텍스트 파일을 열 때 왜 "글자 깨짐"(乱码) 현상이 발생하나요?

A: 보통 GBK나 Big5로 인코딩된 파일을 UTF-8로 열었을 때(또는 그 반대) 발생합니다. 이를 해결하려면 GBK-UTF-8 또는 Big5-UTF-8 변환기를 사용하여 매핑을 수정하세요.

Q: GB18030은 UTF-8과 호환되나요?

A: 아니요. 둘 다 모든 유니코드 문자를 지원하지만 바이트 시퀀스가 다릅니다. 두 방식 간의 변환을 위해서는 적절한 GB18030 인코더 디코더를 사용해야 합니다.

Q: 새 앱에 GB18030과 UTF-8 중 무엇을 사용해야 하나요?

A: 대부분의 웹 및 모바일 앱에서는 UTF-8이 최선의 선택입니다. 중국 시장을 위한 특정 규정 준수 요구 사항이 있거나 레거시 중국 정부 데이터를 다루는 경우에만 GB18030을 사용하세요.


6. Tool3M으로 중국어 데이터 마스터하기

기존 중국어 인코딩 처리에 어려움을 겪고 계신가요? 저희 도구 모음이 도와드립니다:

  • GBK/GB18030 인코더 및 디코더: 깨진 텍스트를 복구하고 레거시 파일을 변환합니다.
  • Big5-UTF-8 변환기: 번체 중국어 데이터를 쉽게 처리합니다.
  • 간체/번체 변환기: 고정밀 언어 변환.
  • 중국어 대문자 금액 변환기: 공식 금융 텍스트를 즉시 생성합니다.
  • 병음 변환기: SEO 또는 인덱싱을 위해 모든 중국어 텍스트를 즉시 로마자로 변환합니다.

관련 가이드