中国語文字エンコーディングの究極ガイド:GB18030、GBK、Big5、そしてその先へ
ソフトウェア開発において中国語テキストを処理することは、独特の課題を伴います。ラテン文字ベースの言語とは異なり、中国語には数千の文字が必要であり、その結果、エンコーディング標準には複雑な歴史があります。初期の GB2312 から現代の義務的な GB18030、そして台湾や香港で広く使用されている Big5 まで、これらの標準を理解することは、東アジアのデータを扱う開発者にとって不可欠です。
このガイドでは、中国語エンコーディングの技術的な詳細、UTF-8への変換方法、および中国語ソフトウェアで頻繁に必要とされる特殊なテキスト変換について説明します。
1. 簡体字中国語標準:GBファミリー
中国本土では、国家標準(国標、またはGB)によって簡体字中国語キャラクターのエンコード方法が規定されています。
GB2312(基礎)
1980年にリリースされた GB2312 は、最初の主要な標準でした。2バイトのエンコーディングシステムを使用し、6,763文字の漢字をサポートしています。一般的に使用される文字の99.75%をカバーしていますが、多くの珍しい名前や繁体字文字のサポートが不足しています。
GBK(一般的な拡張)
GBK(Guobiao Kuozhan)は、GB2312の拡張として1995年に導入されました。GB2312との後方互換性を維持しながら、繁体字中国語キャラクターや珍しい記号のサポートが追加されました。
- キーワード: GBK エンコーダー・デコーダー、GBKからUTF-8への変換。
GB18030(現代の義務的標準)
GB18030 は、現在の中華人民共和国における義務的な標準です。可変幅エンコーディング(1、2、または4バイト使用)であり、Unicode文字セット全体をサポートしています。
- なぜ重要か: 中国で販売されるソフトウェアは、法的にGB18030をサポートする必要があります。これには、少数民族の言語(チベット語やウイグル語など)のサポートと、すべてのUnicodeコードポイントのマッピングが含まれています。
- キーワード: GB18030 エンコーダー・デコーダー。
2. 繁体字中国語標準:Big5
中国本土がGB標準を採用した一方で、台湾、香港、マカオでは主に Big5 が使用されました。
Big5とは?
1984年に主要なテック企業5社によって開発されたBig5は、繁体字中国語のための2バイトエンコーディングシステムです。13,000文字以上をサポートしています。しかし、ベンダーの実装間の「衝突」に悩まされたことで有名で、Big5-HKSCS(香港用)などのさまざまな拡張につながりました。
- キーワード: Big5 エンコーダー・デコーダー、Big5からUTF-8への変換。
3. 基本的なエンコーディングを超えて:不可欠な中国語テキスト変換
エンコーディングは戦いの半分にすぎません。中国語のテキスト処理では、意味的およびスタイル的な変換が必要になることがよくあります。
簡体字から繁体字への変換
簡体字(大陸)と繁体字(台湾/香港)の間の変換は、単純な1対1のマッピングではありません。文脈に応じて、1つの簡体字が複数の繁体字にマップされる場合があります。プロフェッショナルな 簡体字・繁体字コンバーター は、正確性を確保するために言語辞書を使用する必要があります。
全角 vs. 半角 (Zenkaku/Hankaku)
中国語のタイポグラフィでは、文字は通常「全角」(正方形のブロックを占める)です。しかし、数字やラテン文字は「半角」(狭い)になることがあります。開発者は、データベースやフォームの入力を正規化するために 全角・半角コンバーター を必要とすることがよくあります。
中国語の数字および通貨コンバーター
中国語には独自の数字体系があります。金融アプリケーションでは、不正を防ぐために「大写数字」(大書き)が使用されます。
- 中国語数字コンバーター: 標準の数字 (123) を中国語の文字 (一百二十三) に変換します。
- 中国語大文字金額コンバーター: 小切手や請求書で使用するために、数字を正式な会計用バージョン (壹佰贰拾叁) に変換します。
拼音(ピンイン)と音声学
拼音 は、中国語(マンダリン)の標準的なローマ字表記体系です。文字を拼音に変換することは、検索インデックス、入力メソッド (IME)、および教育ツールにとって非常に重要です。
- キーワード: 中国語から拼音へのコンバーター。
4. 技術比較表
| エンコーディング | 地域 | タイプ | Unicode互換? | 文字あたりのバイト数 |
|---|---|---|---|---|
| GB2312 | 本土 | 簡体字 | いいえ | 2 |
| GBK | 本土 | 簡体/繁体 | いいえ | 2 |
| GB18030 | 本土 | ユニバーサル | はい | 1, 2, または 4 |
| Big5 | 台湾/香港 | 繁体字 | いいえ | 2 |
| UTF-8 | グローバル | ユニバーサル | はい | 1 〜 4 |
5. FAQ:よくある質問
Q: 中国語のテキストファイルを開くと「文字化け」するのはなぜですか?
A: これは通常、GBKまたはBig5でエンコードされたファイルがUTF-8として開かれた場合(またはその逆)に発生します。マッピングを修正するには、GBKからUTF-8 または Big5からUTF-8 コンバーターを使用してください。
Q: GB18030はUTF-8と互換性がありますか?
A: いいえ。どちらもすべてのUnicode文字をサポートしていますが、使用するバイトシーケンスが異なります。それらの間を変換するには、適切な GB18030 エンコーダー・デコーダー を使用する必要があります。
Q: 新しいアプリにはGB18030とUTF-8のどちらを使用すべきですか?
A: 大半のWebおよびモバイルアプリケーションにとって、UTF-8 が最適な選択です。中国市場向けの特定のコンプライアンス要件がある場合、または古い中国政府のデータを扱っている場合にのみ、GB18030を使用してください。
6. Tool3Mで中国語データをマスターする
レガシーな中国語エンコーディングにお困りですか?当社のツールスイートがお手伝いします。
- GBK/GB18030 エンコーダー & デコーダー: 文字化けしたテキストを修復し、レガシーファイルを変換します。
- Big5からUTF-8へのコンバーター: 繁体字中国語データを簡単に処理します。
- 簡体字/繁体字コンバーター: 高精度な言語変換。
- 中国語大文字金額コンバーター: 正式な財務テキストを即座に生成します。
- 拼音コンバーター: SEOやインデックス作成のために、中国語テキストを即座にローマ字化します。