encoding iso-8859 windows-1252 koi8-r i18n

全球遗留编码指南:理解 ISO-8859 和 Windows-125x 系列

一份关于遗留字符编码的完整指南,包括 Latin-1、Windows-1252 以及 ISO-8859-5 和 KOI8-R 等西里尔标准。

2026-04-13

全球遗留编码指南:理解 ISO-8859 和 Windows-125x 系列

虽然 UTF-8 现在已成为全球标准,但世界各地数以百万计的文件、数据库和遗留系统仍在使用区域性的 8 位字符编码。对于开发人员、数据科学家和 IT 专业人士来说,理解这些遗留标准对于防止数据损坏和修复“乱码”(Mojibake)至关重要。

在本指南中,我们将探讨最常见的区域编码系列,包括 ISO-8859 系列和微软的 Windows-125x 代码页。


1. ISO-8859 系列(全球标准)

ISO-8859 标准是最初的 8 位字符编码国际标准。标准的每个部分都针对特定的区域或语言系列而设计。

  • ISO-8859-1 (Latin-1):使用最广泛的 8 位编码,涵盖西欧语言(英语、法语、德语、西班牙语等)。
  • ISO-8859-2 (Latin-2):用于中欧和东欧语言(波兰语、捷克语、匈牙利语等)。
  • ISO-8859-5 (Cyrillic):俄罗斯语和其他基于西里尔字母语言的标准。
  • ISO-8859-6 (Arabic):阿拉伯语标准。
  • ISO-8859-7 (Greek):现代希腊语标准。
  • ISO-8859-8 (Hebrew):希伯来语标准。
  • ISO-8859-9 (Turkish):针对土耳其语对 ISO-8859-1 的调整版本。
  • ISO-8859-15 (Latin-9):ISO-8859-1 的现代更新版,包含欧元符号 (€) 和一些缺失的法语/芬兰语字母。

2. Windows-125x 系列(微软扩展)

微软开发了自己的一套 8 位编码,通常基于 ISO-8859 标准,但带有专有修改。

  • Windows-1252 (Western):旧版 Windows 英语和西欧语言版本的默认编码。它与 ISO-8859-1 几乎相同,但使用“C1 控制码”范围来表示可打印字符,如智能引号和欧元符号。
  • Windows-1251 (Cyrillic):Windows 环境下俄语、保加利亚语和塞尔维亚语最流行的遗留编码。
  • Windows-1250 (Central Europe):微软版针对 Windows 的 Latin-2 编码。
  • Windows-1256 (Arabic):阿拉伯语常用的 Windows 编码。

3. 特殊遗留编码:KOI8-R

在 Windows-1251 和 Unicode 兴起之前,俄罗斯的 Unix 和早期互联网系统使用 KOI8-R (Kod Obmena Informatsiey 8-bit)。与其他编码不同,KOI8-R 的设计使得如果去掉最高位,俄语字符会映射到发音相似的拉丁字母,从而使文本在仅支持 7 位 ASCII 的系统上仍保持部分可读性。


4. 技术对比表

编码系列 目标区域 最佳用例 Unicode 替代方案
ISO-8859-1 西欧 遗留 Web / Unix UTF-8
Windows-1252 西欧 遗留 Windows 应用 UTF-8
ISO-8859-5 东欧 遗留西里尔系统 UTF-8
Windows-1251 东欧 遗留 Windows (RU) UTF-8
KOI8-R 俄罗斯 遗留 Unix / 电子邮件 UTF-8
ISO-8859-6 中东 遗留阿拉伯语 Web UTF-8

5. FAQ:常见问题

问:为什么我的“智能引号”(“”)变成了奇怪的符号?

:这通常是 ISO-8859-1Windows-1252 之间的不匹配造成的。ISO-8859-1 不包含智能引号,而 Windows-1252 包含。如果您将 Windows-1252 文本读取为 ISO-8859-1,这些字符将会损坏。

问:ISO-8859-1 和 UTF-8 有什么区别?

:ISO-8859-1 是固定宽度的 8 位编码,只能表示 256 个字符。UTF-8 是变长编码,可以表示世界上每种语言的 110 多万个字符。

问:如何从遗留数据库中恢复文本?

:您必须识别数据的原始编码(例如,俄语数据库可能使用 Windows-1251),并使用合适的解码器将其转换为 UTF-8。


6. 使用 Tool3M 掌握遗留编码

不要让遗留数据变成噩梦。Tool3M 提供了一套专业的区域编码修复和转换工具:

  • ISO-8859 系列解码器与编码器:支持 ISO-8859 标准的所有 15 个部分。
  • Windows 代码页转换器:无缝处理 Windows-1250, 1251, 1252 等。
  • KOI8-R 恢复工具:从 Unix 系统恢复遗留俄语文本。
  • 全球编码检测器:识别任何神秘文件的源编码。

相关指南