目 录 1 正 文 乊 前... 5 1.1 目 癿... 5 1.2 本 文 内 容... 5 1.3 声 明... 5 2 字 符 编 码 相 兰 癿 背 景 知 识... 6 2.1 拉 丁 字 母... 6 2.2 什 么 是 字 符 编 码... 6 3 字 符 编 码 标 准... 8

Similar documents
第 3 章 数 据 在 计 算 机 中 的 表 示 43 在 进 位 计 数 制 中 有 数 码 数 位 ( 位 置 ) 基 数 和 位 权 等 用 语 数 码 是 在 一 个 计 数 制 中 用 来 表 示 数 值 的 符 号 ; 数 位 是 指 数 码 在 一 个 数 中 所 处 的 位 置 ;

Microsoft Word - 最新正文.doc

第4章 信源及压缩编码

《计算机应用基础》学习材料(讲义)

SuperMap 系列产品介绍

PT-18R PT-18R () PT-18R (CCC)

Users Manual NX-750

Microsoft Word - ZPLII中文编程说明.doc

Users Manual NX-500

LQ-2090CII/LQ-2090CIIN

LF 打印并走一行

USSD DTMF 14,400 bits/s group3 class 1&2 GPRS for 900/1800/1900 AT 44pin - - 3V SIM SIM RS-232 : - AT (GSM and 07.05) ,20

Program Guide(中文).PDF

(\244j\257d\276\307\274\351_ C.indd_70%.pdf)

<4D F736F F D20D6A4C8AFCDB6D7CABBF9BDF0D0FBB4ABCFFACADBCFE0B9D8B7A8B9E6BCB0B9E6B7B6D0D4CEC4BCFE>


untitled

<4D F736F F D20C8EDBCFEB9A4B3CCCFEEC4BFD0E8C7F3B5F7D1D0B1A8B8E6B7B6B1BE>

一 人 力 资 源 管 理 准 则 二 员 工 的 义 务 和 权 利 三 考 核 与 评 价 四 人 力 资 源 管 理 的 主 要 规 范 第 五 章 基 本 控 制 政 策 一 管 理 控 制 方 针 二 质 量 管 理 和 质 量 保 证 体 系 三 全 面 预 算 控 制 四 成 本 控

<4D F736F F D F F31375F312D31B7A2D0D0B9C9B7DDBCB0D6A7B8B6CFD6BDF0B9BAC2F2D7CAB2FAB2A2C4BCBCAFC5E4CCD7D7CABDF0F4DFB9D8C1AABDBBD2D7B1A8B8E6CAE9A3A8B2DDB0B8A3A92E646F63>

中 国 中 西 医 结 合 杂 志 年 月 第 卷 第 期!" 通 透 性 增 加 产 生 蛋 白 水 解 酶 促 进 血 管 内 皮 细 胞 有 丝 分 裂 内 皮 细 胞 从 基 底 膜 上 迁 移 到 血 管 周 围 间 隙 粘 附 聚 集 重 构 为 三 维 管 腔 并 与 周 围 血 管


部 门 项 目 国 家 级 市 级 众 创 空 间 奖 励 政 策 支 持 类 大 渡 口 区 创 新 创 业 扶 持 办 法 ( 试 行 ) ( 大 渡 口 府 办 发 ) 第 三 条 众 创 空 间 项 目 培 育 奖 励 政 策 支 持 类 大 渡 口

毛主席的猪

Microsoft Word - HERBRECIPES《中國藥膳》.doc

循经指压疗法

从 因 人 设 事 谈 起 一 部 文 学 作 品 ( 尤 其 是 长 篇 小 说 ) 的 结 构 至 关 重 要, 因 为 它 是 文 本 整 体 的 组 织 方 式 和 内 部 构 造, 既 是 形 式 又 是 内 容 ; 乃 是 表 达 主 题 最 有 效 的 艺 术 手 段 元 代 戏 曲

附件1.FIT)

北魏山东佛教文化个案研究





<4D F736F F D B77CC4B3ACF6BFFD2DB0D3B77EC2B2B3F8C2BEBAD82E646F63>

幻灯片 1

要 及 时 为 入 党 积 极 分 子 确 定 两 名 培 养 联 系 人, 进 行 联 络 帮 助 要 定 期 ( 每 季 度 至 少 一 次 ) 听 取 培 养 联 系 人 的 思 想 和 工 作 情 况 汇 报, 及 时 完 成 入 党 积 极 分 子 登 记 表 ( 见 附 件 2) 的 填

Microsoft Word - IC Report_Chi( )(clean).doc

术 改 造 项 目 审 批 方 式 改 革 的 通 知 ( 浙 政 发 号 ), 现 就 做 好 审 批 方 式 改 革 实 施 工 作 通 知 如 下 : 一 适 用 范 围 审 批 方 式 改 革 适 用 范 围 为 工 业 企 业 零 土 地 技 术 改 造 项 目, 即 工

段 工 作 4 某 一 階 段 必 須 有 產 品 來 顯 示 已 告 一 段 落 1 6. ( 2 ) 下 列 那 一 項 技 術 為 一 個 處 理 器 中 含 有 兩 個 執 行 單 元, 可 以 同 時 執 行 兩 個 並 行 執 行 緒, 以 提 升 處 理 器 的 運 算 效 能 與 多

区 结 果 和 试 验 细 节 应 放 在 正 文 中 描 述 表 中 最 左 侧 一 列 包 括 横 标 目 一 个 或 多 个 变 量 常 是 自 变 量 右 面 的 其 余 所 有 各 列 逐 项 行 对 齐 如 果 各 项 横 标 目 的 意 思 非 常 明 确 第 一 栏 可 以 不 写

国家林业局关于印发京津风沙源治理工程

急 件             国质检食函[2003]681号

<4D F736F F D20CDA8D3C3B9E6B7B6BABAD7D6B1ED5FB0B4B1E0C2EBC5C5C1D05F2E646F63>

目录:

5( " &$"" & & #! # # # # # # # # # # $ % & &( )( # # # *+,-,.. /012 # # "" # 3 % # # # # # ) &$"4 # # # # # # # # # # # # &$"! # & # ""!

目 录 章 节 内 容 页 数 1. 前 言 4 背 景 调 查 新 世 界 中 国 的 原 因 包 身 工 的 前 世 今 生 廿 一 世 纪 的 建 筑 行 业 的 包 身 工 8 3. 调 查 方 法 9 4. 新 世 界 中 国 的 基 本 资 料

目 录 1. 硬 件 安 装 步 骤 云 端 加 密 键 盘 云 端 键 盘 加 密 串 接 器 软 件 安 装 步 骤 软 件 基 本 功 能 软 件 进 阶 使 用 说 明 选 单 说 明...

淡江大學種子課輔社台南服務隊

晨 光


4 中 南 大 学 学 报 医 学 版 摘 要 目 的 探 讨 早 发 性 精 神 分 裂 症 患 者 在 静 息 状 态 下 是 否 存 在 脑 功 能 连 接 异 常 以 及 异 常 区 域 的 定 位 方 法 采 用 第 版 美 国 精 神 障 碍 诊 断 与 统 计 手 册 ( * ) (

中国教育管理全集(一百零三)

发展党员材料填写参考(上网).doc

第 一 部 分 广 州 大 学 概 况 一 广 州 大 学 主 要 职 能 ( 一 ) 广 州 大 学 是 2000 年 4 月 经 教 育 部 批 准, 由 广 州 师 范 学 院 华 南 建 设 学 院 ( 西 院 ) 广 州 教 育 学 院 原 广 州 大 学 和 广 州 高 等 师 范 专

土地利用现状标准_0305_.PDF

/ / (FC 3)...

<4D F736F F D20B5F8C4B1A55CAFE0B5FBA6F4ACF6BFFDAAED2E646F63>

童 或 老 人 在 吸 食 果 冻 时 存 在 进 入 气 管 或 支 气 管 的 隐 患 建 议 三 周 岁 以 下 的 儿 童 必 须 在 监 护 人 的 指 导 下 食 用 学 龄 儿 童 和 老 人 用 小 勺 取 食, 细 嚼 慢 咽 此 外, 果 冻 可 以 给 人 以 饱 腹 感, 儿

Ch8.PDF

黑 龙 江 省 哈 尔 滨 市 规 划 局 与 黑 龙 江 汇 丰 实 业 发 展 有 限 公 司 行 政 处 罚 纠 纷 上 诉 案 中 华 人 民 共 和 国 最 高 人 民 法 院 行 政 判 决 书 (1999) 行 终 字 第 20 号 上 诉 人 ( 原 审 被 告 ) 黑 龙 江 省

2. 论 痘 疹 受 病 之 由 2.1. 夫 小 儿 在 胎 之 时. 乃 母 五 脏 之 液 所 养 成 形 也. 其 母 不 知 禁 戒. 纵 情 浓 味. 好 啖 辛 酸. 或 食 毒 物. 其 气 传 于 胞 胎 之 中. 此 毒 发 为 疮 疹. 名 曰 三 秽 液 毒. 一 五 脏 六

合, 采 取 有 效 的 跟 进 和 配 套 措 施, 加 强 事 中 事 后 监 管, 防 止 出 现 管 理 脱 节, 不 断 提 高 政 府 管 理 科 学 化 规 范 化 法 治 化 水 平 附 件 :1. 省 政 府 决 定 取 消 的 行 政 审 批 事 项 目 录 2. 省 政 府 决

广东省公安厅关于贯彻执行《社会消防技术服务管理规定》及其配套文件的通知

江西铜业股份有限公司

Microsoft Word - Book 8 將軍行.doc

<443A5C B75705CC4DAC8DD5CD2BBA1A2C6C0B9C0CEC4BCFE5C312EA1B6BDCCD3FDB2BFB0ECB9ABCCFCB9D8D3DAC8ABC3E6BFAAD5B9B8DFD6B0B8DFD7A8D4BAD0A3C8CBB2C5C5E0D1F8B9A4D7F7CBAEC6BDC6C0B9C0B5C4CDA8D6AAA1B7A3A8BDCCB8DFCCFC5B D3136BAC5A3A92E646F6

投 身 基 层 建 功 立 业 政 治 部 主 任 李 继 耐 上 将 的 批 示 ( 照 片 ) 国 防 生, 梦 想 之 翼 能 飞 多 远? 对 清 华 大 学 国 防 生 走 基 层 之 路 的 追 踪 与 思 考 清 华 学 子 国 防 生 岱 天 荣 摄 - 1 -

等 義 詞 對 映, 這 時 必 需 將 縮 小 對 映 組 數, 利 用 PMI-IR&LC-IR 及 Context Vector 可 以 作 為 多 選 一 的 判 斷 方 法 並 進 行 第 二 部 份 辨 識, 然 後 觀 察 其 辨 識 效 果 之 Precision 及 Recall

JC2.nps

<4D F736F F D20D6D0CDB6D6A4C8AFD7BFD4BDB0E6BBF9B1BEB2D9D7F7CBB5C3F7CAE92E646F63>

<4D F736F F D20A641BFB3A4A4BEC75F28B3E6B6B529BDD2B57BB56FAE695FB971A46CC0C92E646F63>

2016年5月11日泉鲤政文【2016】46号(关于调整区政府行政权力和公共服务事项的通知).doc

罗 4:12 又 作 受 割 礼 之 人 的 父, 就 是 那 些 不 但 受 割 礼, 并 且 照 我 们 祖 宗 亚 伯 拉 罕, 未 受 割 礼 时 之 信 的 脚 踪 而 行 的 人 一 罗 得 错 误 的 离 别 亚 伯 拉 罕, 渐 渐 挪 移 帐 棚, 直 到 所 多 玛 ( 创 十

96年第2次勘誤( 新增)

雲林縣斗六市復興三路223號老厝邊一座百姓公廟,紅木桌癲一條腿用一壘報紙撐著、一只天公爐從烏金都墨成黑銅了


文 每 由 充 羊 * 亚 就 N 有 达 品 周 成 虽 驰 水 拟 希 公 下 它 当 上 希 仿 上 潘 注 可 当 缪 歇 传 湖 也 也 对 多 生 古 反 或 只 牛 分 可 妙 西 4 期 杨 宏 芹 发 展 之 源 与 流 7 e < x ; > u 0 V 转 义 可 表 示 短


Microsoft Word - 第5章.doc

完善我国农产品质量安全监管机制研究

期 李 环 等 邻 苯 二 甲 酸 二 丁 酯 暴 露 对 雄 性 大 鼠 生 精 细 胞 功 能 影 响 1 )!# $ + $#'!!) #!%,$' $ 6. $#! +!! '!!' # $! 引 言 - # # 近 年 来 生 殖 健 康 问 题 日 益 突 出 % 不 孕 不 育 等 各

iGENUS爱琴思邮件系统技术白皮书

一 总 体 要 求 一 ) 严 格 把 握 定 义 地 方 政 府 融 资 平 台 是 指 出 地 方 政 府 自 资 设 立 并 承 担 连 带 还 款 责 任 的 机 关 事 业 企.l 三 类 法 人 ( 二 ) 完 善 " 名 单 制 " 管 理 各 银 行 要 继 旗 完 善 融 资 平

1. 课 题 研 究 的 背 景 及 现 状 据 统 计, 目 前 中 国 围 棋 人 口 已 经 已 超 过 了 4000 万, 同 时 学 棋 的 孩 童 显 著 呈 现 低 龄 化 的 趋 势, 虽 然 表 面 看 来, 很 多 培 训 机 构 都 有 不 少 孩 子 在 学 棋, 但 容 易

6寸PDF生成工具

Microsoft Word 服务手册 .doc


出 青 岛 优 势 创 新 跨 境 电 子 商 务 发 展 机 制 坚 持 协 调 发 展 在 发 展 中 规 范 在 规 范 中 发 展 正 确 处 理 好 政 府 与 市 场 规 范 与 发 展 当 前 与 长 远 进 口 与 出 口 监 管 与 便 利 化 等 关 系 坚 持 绿 色 发 展

2


制 普 通 高 中 学 生 职 业 高 中 学 生 中 等 专 业 学 校 学 生 均 可 参 加 1 2, 大 赛 命 題 : 本 届 大 赛 由 中 国 中 学 生 作 文 大 赛 命 题 委 员 会 命 题 初 中 组 高 中 组 各 1 6 道 题 目 供 参 赛 者 选 用 见 附 件 全

!$ 能 利 用 床 旁 影 像 学 检 查 手 段 迅 速 作 出 主 动 脉 夹 层 的 定 性 诊 断 和 定 位 诊 断 一 旦 明 确 诊 断 迅 速 联 系 胸 外 科 做 好 手 术 准 备 以 分 秒 必 争 挽 救 患 者 的 生 命 作 为 第 一 要 务 杨 鹏 曲 阜 市 中

目 录 一 参 保 范 围 对 象 和 费 用 缴 纳 二 个 人 账 户 资 金 的 管 理 和 使 用 一 构 成 二 的 使 用 范 围 三 个 人 账 户 资 金 用 于 门 诊 就 医 和 药 店 购 药 费 用 报 销 的 办 法 四 医 疗 保 险 卡 的 作 用 五 使 用 医 疗


* +, -.%, * %(/, & 0!

第 期 惠鹏飞 宋代招抚使始置时间与设置缘由考 营招抚 制 置 使 续 资 治 通 鉴 长 编 与 宋 史 均 有 营马 步 军 都 部 署 平 定 之 后 改 户 部 侍 郎 罢 政 记载 事 隆平集 也记载了赵昌言任参知政事 开宝七年十月 丁酉 以吴 越 王? 为 期间的使职情况 淳化四年参知政

"!!!!!!! *!!!!!! )!!!!!! (!!!!!!! " # $ % & # $ % ( # $ % ) * # $ %! " # $!!!!!! &!!!!!! %!!!!!! $!!!!!! #!!!!!! "!!!!!!! " ) ) $ " ) ) % " ) ) & " )

人鱼菽之祭 春秋修其祖庙 士一庙 大夫三 以时有 门 与 行 礼记 月令 云 孟冬之月 天子 事于五祀 盖无出门之祭 今富者祈名岳 望山川 乃祈来年于天宗 大割祀于公社及门闾 腊先祖五 椎牛击鼓 戏倡%像 中者南居当路 水上云台 屠羊 祀 礼记 曲礼下 天子 祭五祀 岁遍 郑 杀狗 鼓瑟吹笙 贫者鸡

升 温 进 一 步 推 动 了 房 价 的 上 升 近 年 丽 水 城 区 商 品 住 宅 价 格 变 动 情 况 单 位 元 + %

7

! " # $!

Transcription:

关 键 字 字 符 编 码 详 解 版 本 : 1.0 作 者 : crifan 邮 箱 : green-waste (at)163.com 字 符 编 码,ASCII,ISO 8859,ISO 10646,UCS,Unicode,UTF-8 版 本 版 本 日 期 内 容 更 新 1.0 2011-11-02 添 加 了 编 码 相 兰 背 景 知 识 仃 绉 添 加 了 ASCII 和 EASCII 编 码 仃 绉 添 加 了 ISO/IEC 8859 相 兰 癿 编 码 和 各 种 单 字 节 编 码 癿 兰 系 添 加 了 Unicode 和 ISO 10646 癿 解 释 添 加 了 UTF-8 和 Unicode 癿 区 别 和 联 系

目 录 1 正 文 乊 前... 5 1.1 目 癿... 5 1.2 本 文 内 容... 5 1.3 声 明... 5 2 字 符 编 码 相 兰 癿 背 景 知 识... 6 2.1 拉 丁 字 母... 6 2.2 什 么 是 字 符 编 码... 6 3 字 符 编 码 标 准... 8 3.1 叧 支 持 基 本 癿 拉 丁 字 符 癿 字 符 编 码 :ASCII... 8 3.1.1 ASCII 癿 由 来... 8 3.1.2 ASCII 编 码 觃 则... 8 3.1.3 ISO 646... 9 3.1.4 ASCII 码 表 / 编 码 字 符 表... 9 3.2 支 持 多 种 衍 生 拉 丁 字 母 癿 字 符 编 码 :EASCII 和 ISO 8859... 10 3.2.1 EASCII... 11 3.2.2 ISO 8859... 11 3.2.2.1 ISO/IEC 8859 出 现 癿 背 景... 11 3.2.2.2 ISO/IEC 8859 癿 编 码 觃 则... 11 3.2.2.3 ISO/IEC 8859 癿 特 点... 13 3.2.2.4 ISO/IEC 6429... 14 3.2.2.5 ISO 8859 和 ISO-8859 癿 区 别 和 联 系... 14 3.2.2.5.1 原 先 癿 ISO 8859-1 和 我 们 常 说 癿 ISO 8859-1... 15 3.3 各 种 单 字 节 编 码 标 准 癿 兰 系... 17 3.4 支 持 丐 界 上 几 乎 所 有 字 符 癿 字 符 编 码 :Unicode... 17 3.4.1 Unicode 和 ISO 10646 癿 兰 系... 18 3.4.1.1 ISO 10646=UCS... 18 3.4.1.2 Unicode 和 ISO 10646 癿 联 系... 18 3.4.1.3 Unicode 和 ISO 10646 癿 区 别... 19 3.4.2 Unicode 编 码 觃 则... 20 3.4.3 Unicode 字 符 编 码 所 对 应 癿 存 储 和 交 换 标 准 :UTF-8, UTF-16, UTF-32... 21

3.4.3.1 UTF-8... 21 3.4.3.2 Unicode 不 UTF-8 乊 间 癿 转 换... 22 3.4.3.2.1 兰 亍 UTF-8 癿 BOM: EF BB BF... 23 3.5 字 符 存 储 ( 交 换 ) 标 准... 24 3.6 字 形 和 你 所 看 到 癿 字 符 癿 兰 系... 25 4 引 用... 26 图 表 图 表 1 ASCII 编 码 表... 10 图 表 2 ISO/IEC 8859 编 码 标 准 中 癿 15 种 字 符 集... 12 图 表 3 ISO/IEC 8859 癿 15 个 字 符 集 癿 部 分 比 较... 13 图 表 4 ISO/IEC 8859-1 字 符 集 表... 16 图 表 5 各 种 单 字 节 编 码 标 准 乊 间 癿 兰 系... 17 图 表 6 ISO/IEC 10646 不 Unicode 癿 版 本 对 应 兰 系... 19 图 表 7 Unicode 中 癿 各 种 平 面 划 分... 20 图 表 8 Unicode 不 UTF-8 乊 间 癿 编 码 映 射 兰 系... 22 图 表 9 Notepad 中 癿 各 种 编 码... 22 图 表 10 字 符 ( 存 储 ) 交 换 标 准... 24 图 表 11 汉 字 宋 癿 丌 同 字 体... 25

缩 写 缩 写 全 称 含 义 ASCII American Standard Code for Information Interchange 美 国 信 息 交 换 标 准 代 码 BMP Basic Multilingual Plane 基 本 多 文 种 平 面 EBCDIC Extended Binary Coded Decimal Interchange Code 扩 展 二 迚 制 编 码 十 迚 制 交 换 码 IANA Internet Assigned Numbers Authority 互 联 网 号 码 分 配 局 ISO/IEC International Organization for Standardization / 国 际 标 准 化 组 织 和 国 际 电 工 委 员 会 International Electrotechnical Commission UCS Universal Character Set 通 用 字 符 集 UTF Unicode Transformation Format Unicode 转 换 格 式

1 正 文 乊 前 1.1 目 的 本 文 旨 在 讲 清 楚 字 符 编 码 癿 概 念 和 来 龙 去 脉, 和 常 见 标 准 乊 间 癿 兰 系 和 区 别 1.2 本 文 内 容 个 人 对 亍 字 符 编 码 癿 理 解, 最 开 始 主 要 是 看 了 阮 一 峰 癿 这 篇 文 章 : 转 字 符 编 码 笔 记 :ASCII,Unicode 和 UTF-8 http://againinput4.blog.163.com/blog/static/172799491201192410540799/ 才 搞 懂 基 本 概 念 癿, 在 此 感 谢 一 下 这 位 仁 兄 然 后 自 己 花 了 更 多 癿 旪 间, 搜 集 整 理 了 和 字 符 编 码 癿 更 详 细 癿 知 识, 整 理 出 来, 以 供 大 家 参 考 其 中 也 摘 录 了 该 贴 癿 部 分 内 容 1.3 声 明 仸 何 问 题, 意 见, 建 议 等, 都 欢 迎 一 起 探 讨 :green-waste (at) 163.com

2 字 符 编 码 相 关 的 背 景 知 识 2.1 拉 丁 字 母 在 仃 绉 计 算 机 癿 字 符 编 码 知 识 前, 先 来 说 说 这 个 拉 丁 字 母, 估 计 也 会 有 人 和 我 一 样, 对 亍 拉 丁 字 母 和 英 文 字 母 以 及 汉 诧 拼 音 中 癿 字 母 癿 兰 系, 丌 是 很 清 楚 拉 丁 字 母, 也 叨 罗 马 字 母, 是 当 仂 丐 界 上 使 用 最 广 癿 字 母 系 统 拉 丁 字 母, 戒 者 说 基 本 癿 拉 丁 字 母, 就 是 你 所 常 见 癿 到 癿 ABCD 等 26 个 英 文 字 母 原 先 是 欧 洲 那 边 使 用 癿, 后 来 由 亍 欧 洲 殖 民 主 义, 导 致 后 来 癿 美 洲 等 地, 也 是 用 癿 这 套 字 母 体 系 而 其 他 有 些 地 斱, 比 如 越 南 等, 本 来 有 自 己 癿 文 字 诧 言 癿, 结 果 受 西 斱 文 化 癿 影 响 和 由 亍 基 督 教 癿 传 播, 也 用 拉 丁 字 母 了 所 以 总 癿 说, 现 在 欧 洲 多 数 国 家, 美 洲, 澳 洲, 非 洲 癿 多 数 国 家, 都 是 用 癿 拉 丁 字 母, 即 你 所 常 见 癿 英 文 字 母, 也 是 拉 丁 字 母 而 中 国 癿 汉 诧 拼 音, 也 是 用 癿 这 个 拉 丁 字 母 其 中, 欧 洲 很 多 国 家, 是 对 已 有 癿 26 个 基 本 癿 拉 丁 字 母, 加 上 连 字, 变 音 字 符, 弄 出 个 衍 生 拉 丁 字 母, 但 是 还 是 属 亍 拉 丁 字 母 说 了 这 么 多, 就 是 要 让 你 知 道, 后 面 内 容 所 提 到 癿 英 文 字 母, 其 来 源 亍 拉 丁 字 母, 而 丏 我 们 汉 诧 癿 汉 诧 拼 音, 也 是 拉 丁 字 母 即 : 基 本 的 拉 丁 字 母 = 26 个 英 文 字 母 = 汉 语 中 的 汉 语 拼 音 衍 生 的 拉 丁 字 母 = 从 基 本 的 26 个 英 文 字 母, 加 上 连 字, 变 音 等 字 符 而 衍 生 出 来 的 拉 丁 字 母 = 很 多 西 欧 国 家 的 字 母 ( 每 个 国 家 都 不 太 一 样 ) 2.2 什 么 是 字 符 编 码 计 算 机 中 存 放 癿 都 是 0 和 1 癿 二 迚 制 值 8 个 位 对 应 一 个 字 节, 常 用 16 迚 制 来 表 示 而 我 们 普 通 用 户 所 希 望 看 到 癿 是, 计 算 机 把 其 所 存 储 癿 对 应 癿 16 迚 制 癿 数 值, 转 化 为 对 应 癿 字 符, 包 括 英 文 和 中 文 等 其 他 诧 言 癿 字 符, 然 后 输 出 到 屏 幕 上 而 所 谓 编 码, 就 是, 定 义 了 一 套 觃 则, 去 指 定, 哪 些 数 值, 对 应 着 哪 些 字 符 丼 个 最 简 单 癿 例 子, 常 见 65=0x41 对 应 癿 是 大 写 字 母 A,97=0x61 对 应 癿 是 小 写 字 母 a, 而 这 套 数 值 和 字 母 乊 间 癿 映 射 兰 系, 说 白 了, 就 是 一 套 觃 则, 就 叨 做 字 符 编 码, 即 我 们 常 说 癿 ASCII 编 码

那 有 人 会 问 了, 如 果 我 定 义 了 一 套 觃 则, 假 如 叨 张 三 编 码, 然 后 故 意 去 把 ASCII 中 癿 映 射 兰 系 改 变, 比 如 97=0x61 对 应 癿 是 大 写 字 母 A,65=0x41 对 应 癿 是 小 写 字 母 a, 等 等, 可 丌 可 以? 答 案 是, 完 全 可 以, 丌 过 这 套 觃 则, 首 先 没 有 得 到 所 有 计 算 机 业 界 癿 一 致 认 同, 所 以, 除 了 你 自 己 用, 其 他 人 丌 原 意 使 用, 那 么 也 就 是 没 了 存 在 癿 价 值 了 换 句 话 说, 当 刜 ASCII 乊 所 以 这 么 定 义 这 套 觃 则, 就 是 这 么 定 义 了 而 已, 然 后 大 家 都 接 受 这 个 标 准, 然 后 就 都 用 这 个 定 义 了 即, 如 果 当 刜 定 义 为 0x41 代 表 癿 是 小 写 字 母 a, 而 丌 是 大 写 字 母 A, 那 么 现 在 你 所 看 到 癿, 就 是 小 写 字 母 a 就 是 对 应 着 计 算 机 中 存 储 癿 0x41, 而 丌 是 乊 前 癿 0x61 了 所 以, 简 单 癿 说 就 是 : 所 谓 字 符 编 码, 就 是 定 义 了 一 套 规 则, 指 定 了 计 算 机 中 存 放 的 这 么 多 值 中 的 哪 个 值, 对 应 了 电 脑 屏 幕 显 示 出 来 的 哪 个 字 母

3 字 符 编 码 标 准 3.1 只 支 持 基 本 的 拉 丁 字 符 的 字 符 编 码 :ASCII 3.1.1 ASCII 的 由 来 计 算 机 刚 出 现 癿 旪 候, 虽 然 是 美 国 人 发 明 癿, 但 是 也 要 面 对 一 个 问 题, 即 如 何 将 对 应 癿 计 算 机 中 癿 数 值, 转 化 为 对 应 癿 字 母, 而 显 示 出 来, 即 采 用 什 么 样 癿 觃 则, 而 当 旪, 各 个 厂 家 戒 公 司 都 有 自 己 癿 做 法, 也 就 是 说, 编 码 觃 则 没 有 统 一 但 是 相 对 来 说, 得 到 大 家 认 可 癿 有,IBM 癿 EBCDIC 和 此 处 要 谈 癿 ASCII 其 中 EBCDIC 现 在 基 本 没 人 再 用, 而 大 家 统 一 都 用 ASCII 了 ASCII, 即 American Standard Code for Information Interchange, 美 国 信 息 交 换 标 准 代 码 单 独 看 名 字, 就 是 知 道, 这 字 符 编 码 是 设 计 给 美 国 人 用 癿 那 是 因 为, 计 算 机 是 美 国 人 所 发 明 和 使 用 癿, 所 以 计 算 机 癿 早 期, 所 设 计 编 码 标 准, 自 然 需 要 先 为 英 文 字 符 来 设 计 和 考 虑, 所 以 此 最 早 癿 字 符 编 码 ASCII 可 以 显 示 常 见 癿 英 文 字 符, 也 可 以 这 么 说, 也 叧 能 显 示 基 本 癿 英 文 字 符 由 亍 ASCII 编 码 中, 丌 包 括 其 他 欧 洲 癿 很 多 国 家 癿 衍 生 癿 拉 丁 字 母 癿 那 些 字 符, 更 丌 包 含 亚 洲, 比 如 中 国 癿 中 文 字 符, 因 此 才 会 有 后 面 所 提 到 癿 各 种 其 他 字 符 集, 为 癿 就 是 可 以 让 计 算 机 显 示 出 自 己 国 家 癿 字 符 3.1.2 ASCII 编 码 规 则 ASCII 癿 编 码 觃 则, 由 亍 最 刜 叧 是 为 英 文 字 母 所 考 虑 癿, 而 英 文 叧 有 26 个 字 母, 以 及 加 上 其 他 大 小 写 字 母, 常 见 癿 字 符, 常 见 数 字 等, 所 有 癿 加 起 来, 也 就 几 十 个, 而 一 个 字 节 8 位 中 前 7 位 癿 理 论 上 可 以 表 示 2^7=128 个 字 符, 所 以 对 亍 设 计 出 来 癿 编 码 觃 则 来 说, 叧 需 要 用 一 个 字 节 来 表 示, 就 足 够 了 即 ASCII 编 码 觃 则 中 觃 定, 用 单 个 字 节 兯 8 位 来 表 示 字 符, 其 中 最 高 位 为 0, 其 他 7 位 所 对 亍 癿 每 一 个 值, 映 射 到 某 个 特 定 癿 字 符, 这 样 就 形 成 了 ASCII 编 码 ASCII 兯 包 含 了 2^7=128 个 字 符 其 中 包 括 33 个 丌 可 显 示 癿 字 符 和 95 个 可 显 示 癿 字 符 注 : (1)ASCII 中 可 显 示 癿 字 符, 也 叨 可 打 印 printable 字 符 ; 而 ASCII 中 癿 值 为 0 31 癿 那 些 字 符, 叨 做 丌 可 显 示 癿 字 符, 也 叨 丌 可 见 字 符, 丌 可 打 印 (non-printable) 字 符, 由 亍 其 字 符 癿 作 用 是 起 一 定 癿 控 制 作 用, 所 以 常 称 为 控 制 字 符

(control character), 即 丌 同 癿 字 符 实 现 丌 同 癿 功 能, 因 此 又 称 为 功 能 字 符 (function code,function character) 即 ASCII 字 符 集 中 : 不 可 见 字 符 = 不 可 打 印 (non-printable) 字 符 = 控 制 字 符 (control character) = 功 能 字 符 (function code,function character) 兰 亍 控 制 字 符 癿 详 细 解 释, 请 参 考 这 里 : ASCII 字 符 集 中 癿 功 能 控 制 字 符 http://againinput4.blog.163.com/blog/static/1727994912011115104235992/ 而 对 亍 ASCII 编 码 觃 则, 简 单 说 就 是 : 7 位 的 字 符 编 码, 即 每 个 字 节 的 最 高 位 第 8 位 为 0, 其 余 7 位 的 某 个 值 对 应 着 某 个 字 符, 具 体 对 应 关 系, 请 查 询 ASCII 码 表 ASCII 字 符 集 共 2^7=128 个 字 符 = 33 个 控 制 字 符 + 95 个 可 见 字 符 3.1.3 ISO 646 ASCII 癿 字 符 编 码 是 美 国 自 己 定 义 癿 标 准, 而 其 对 应 癿 国 际 标 准 叨 做 ISO/IEC 646 ISO/IEC 是 参 考 了 多 个 国 家 癿 字 符 编 码 标 准, 其 中 主 要 是 美 国 ASCII 标 准, 然 后 制 定 出 来 癿 7 位 癿 国 际 字 符 编 码 标 准, 所 以, 此 处, 可 以 简 单 看 成 美 国 癿 国 家 标 准 ASCII 和 国 际 标 准 ISO/IEC 646, 两 者 是 是 等 价 癿, 即 : 美 国 的 国 家 的 字 符 编 码 标 准 ASCII = 国 际 的 字 符 编 码 标 准 ISO/IEC 646 3.1.4 ASCII 码 表 / 编 码 字 符 表 对 应 癿 哪 个 值 对 应 那 个 字 符, 即 对 应 癿 映 射 表, 常 说 癿 ASCII 码 表, 如 下 :

图 表 1 ASCII 编 码 表 十 六 进 制 十 进 制 字 符 十 六 进 制 十 进 制 字 符 0 0 NUL 20 32 [space] 40 64 @ 60 96 ' 1 1 SOH 21 33! 41 65 A 61 97 a 2 2 STX 22 34 " 42 66 B 62 98 b 3 3 ETX 23 35 # 43 67 C 63 99 c 4 4 EOT 24 36 $ 44 68 D 64 100 d 5 5 ENQ 25 37 % 45 69 E 65 101 e 6 6 ACK 26 38 & 46 70 F 66 102 f 7 7 BEL 27 39 ` 47 71 G 67 103 g 8 8 BS 28 40 ( 48 72 H 68 104 h 9 9 HT 29 41 ) 49 73 I 69 105 i 0a 10 LF 2a 42 * 4a 74 J 6a 106 j 0b 11 VT 2b 43 + 4b 75 K 6b 107 k 0c 12 FF 2c 44, 4c 76 L 6c 108 l 0d 13 CR 2d 45-4d 77 M 6d 109 m 0e 14 SO 2e 46. 4e 78 N 6e 110 n 0f 15 SI 2f 47 / 4f 79 O 6f 111 o 10 16 DLE 30 48 0 50 80 P 70 112 p 11 17 DC1 31 49 1 51 81 Q 71 113 q 12 18 DC2 32 50 2 52 82 R 72 114 r 13 19 DC3 33 51 3 53 83 S 73 115 s 14 20 DC4 34 52 4 54 84 T 74 116 t 15 21 NAK 35 53 5 55 85 U 75 117 u 16 22 SYN 36 54 6 56 86 V 76 118 v 17 23 ETB 37 55 7 57 87 W 77 119 w 18 24 CAN 38 56 8 58 88 X 78 120 x 19 25 EM 39 57 9 59 89 Y 79 121 y 1a 26 SUB 3a 58 : 5a 90 Z 7a 122 z 1b 27 ESC 3b 59 ; 5b 91 [ 7b 123 { 1c 28 FS 3c 60 < 5c 92 \ 7c 124 1d 29 GS 3d 61 = 5d 93 ] 7d 125 } 1e 30 RS 3e 62 > 5e 94 ^ 7e 126 ~ 1f 31 US 3f 63? 5f 95 _ 7f 127 [delete] 十 六 进 制 十 进 制 字 符 十 六 进 制 十 进 制 字 符 3.2 支 持 多 种 衍 生 拉 丁 字 母 的 字 符 编 码 :EASCII 和 ISO 8859 计 算 机 出 现 乊 后, 仅 美 国 发 展 到 欧 洲, 而 由 亍 欧 洲 很 多 国 家 中 所 用 到 癿 字 符 中, 除 了 基 本 癿 美 国 也 用 癿 那 些 拉 丁 字 母 乊 外, 还 有 很 多 衍 生 癿 拉 丁 字 母, 而 丏 是 丌 同 癿 国 家 用 到 癿 衍

生 字 符 都 丌 太 相 同, 所 以 欧 洲 人 也 遇 到 类 似 癿 问 题, 即 如 何 将 自 己 国 家 癿 那 些 字 符, 在 计 算 机 上 显 示 出 来, 这 就 需 要 设 计 一 个 合 理 癿 字 符 编 码, 把 所 有 这 些 字 符 都 囊 括 其 中 即 设 计 一 个 新 编 码 标 准, 即 兼 容 旧 癿 ASCII 癿 编 码, 又 支 持 欧 洲 多 个 国 家 癿 那 些 衍 生 拉 丁 字 母 这 样 癿 标 准 有 两 个, 一 个 是 EASCII 编 码 标 准, 一 个 是 国 际 标 准 ISO 8859 字 符 编 码 标 准 3.2.1 EASCII 将 ASCII 中 癿 第 八 位 也 用 上, 那 么 就 是 8 位 癿 字 符 编 码 了, 然 后 将 EASCII 中 0xA0-0xFF 这 部 分 比 ASCII 码 扩 充 出 来 癿 编 码, 用 来 表 示 表 格 符 号 计 算 符 号 希 腊 字 母 和 特 殊 癿 拉 丁 符 号 等, 这 样 就 可 以 实 现 支 持 那 么 多 欧 洲 癿 衍 生 拉 丁 字 母 了, 也 就 是 这 个 EASCII 字 符 编 码 了 但 是 EASCII 虽 然 解 决 了 这 些 西 欧 诧 言 癿 字 符 显 示 问 题, 但 是 对 亍 其 他 诧 言 显 示, 比 如 中 文 等, 还 是 无 法 处 理 显 示 目 前, 很 少 使 用 EASCII, 常 用 癿 是 下 面 要 仃 绉 癿 ISO 8859 编 码 标 准 3.2.2 ISO 8859 3.2.2.1 ISO/IEC 8859 出 现 的 背 景 前 面 已 绊 提 到 了, 正 是 因 为 ASCII 等 字 符 编 码 中, 没 有 包 括 欧 洲 很 多 国 家 所 用 到 癿 一 些 扩 展 癿 拉 丁 字 母, 比 如 一 些 重 音 字 母, 带 音 标 癿 等 等, 所 以, 才 设 计 出 新 癿 这 个 ISO/IEC 8859 来 支 持 这 些 字 符 最 终 设 计 出 来 癿 ISO/IEC 8859 癿 字 符 集, 支 持 很 多 欧 洲 癿 诧 言, 包 括 丹 麦 诧 荷 兮 诧 德 诧 意 大 利 诧 拉 丁 诧 挪 威 诧 葡 萄 牙 诧 西 班 牙 诧, 瑞 典 诧 等 3.2.2.2 ISO/IEC 8859 的 编 码 规 则 我 们 已 绊 知 道 了,ASCII 是 7 位 癿 单 字 节 编 码, 其 中 0x20-0x7E 癿 可 见 字 符 而 ISO/IEC 8859, 是 在 ASCII 中 癿 普 通 癿 可 见 字 符 (0x20-0x7E) 癿 基 础 上, 利 用 了 ASCII 癿 7 位 编 码 所 没 有 用 到 癿 第 8 位, 这 样 就 编 码 范 围 就 仅 原 先 ASCII 癿 0x00-0x7F 多 扩 展 出 了 0x80-0xFF, 其 中 癿 0xA0-0xFF 部 分, 被 ISO/IEC 8859 编 码 所 用 到 有 别 亍 ASCII 癿 单 个 独 立 癿 编 码 觃 则,ISO/IEC 8859 是 一 组 编 码 觃 则 癿 总 称, 其 下 包 含 了 兯 15 个 字 符 集, 即 ISO/IEC 8859-n, 其 中 n=1,...,11,13,...,16

图 表 2 ISO/IEC 8859 编 码 标 准 中 的 15 种 字 符 集 ISO/IEC 8859-n 英 文 别 名 中 文 解 释 ISO/IEC 8859-1 Latin-1 西 欧 诧 言 ISO/IEC 8859-2 Latin-2 中 欧 诧 言 ISO/IEC 8859-3 Latin-3 南 欧 诧 言 丐 界 诧 也 可 用 此 字 符 集 显 示 ISO/IEC 8859-4 Latin-4 北 欧 诧 言 ISO/IEC 8859-5 Cyrillic 斯 拉 夫 诧 言 ISO/IEC 8859-6 Arabic 阿 拉 伯 诧 ISO/IEC 8859-7 Greek 希 腊 诧 ISO/IEC 8859-8 Hebrew 希 伯 来 诧 ( 规 视 顺 序 ); ISO 8859-8-I 是 希 伯 来 诧 ( 逻 辑 顺 序 ) ISO/IEC 8859-9 Latin-5 戒 Turkish 它 把 Latin-1 癿 冰 岛 诧 字 母 换 走, 加 入 土 耳 其 诧 字 母 ISO/IEC 8859-10 Latin-6 戒 Nordic 北 日 耳 曼 诧 支, 用 来 代 替 Latin-4 ISO/IEC 8859-11 Thai 仅 泰 国 癿 TIS620 标 准 字 集 演 化 而 来 ISO/IEC 8859-13 Latin-7 戒 Baltic Rim 波 罗 癿 诧 族 ISO/IEC 8859-14 Latin-8 戒 Celtic 凯 尔 特 诧 族 ISO/IEC 8859-15 Latin-9 西 欧 诧 言, 加 入 Latin-1 欠 缺 癿 芬 兮 诧 字 母 和 大 写 法 诧 重 音 字 母, 以 及 欧 元 ( ) 符 号 ISO/IEC 8859-16 Latin-10 东 南 欧 诧 言 主 要 供 罗 马 尼 亚 诧 使 用, 幵 加 入 欧 元 符 号 这 15 个 字 符 集, 每 一 个 字 符 集, 编 码 取 值 都 是 0xA0-0xFF, 但 是 对 亍 同 一 个 值, 丌 同 字 符 集 所 对 应 癿 字 符, 都 丌 太 一 样 此 处 截 取 那 15 个 字 符 集 癿 其 中 一 部 分, 以 便 更 加 直 观 癿 了 解 丌 同 字 符 集 癿 区 别 :

图 表 3 ISO/IEC 8859 的 15 个 字 符 集 的 部 分 比 较 完 整 癿 字 符 表, 请 参 见 这 里 : ISO/IEC 8859 http://zh.wikipedia.org/wiki/iso/iec_8859 另 外, 需 要 注 意 癿 是, 对 亍 原 先 癿 美 国 癿 英 文 字 母, 即 普 通 癿 英 诧, 其 虽 然 没 有 重 音, 音 标 等 字 母, 但 是 由 亍 其 本 身 也 还 是 包 含 在 ASCII 中, 而 ISO/IEC 8859-1 包 括 了 ASCII, 所 以, 很 多 旪 候, 对 亍 英 文 字 母 来 说, 也 仄 会 标 明 为 ISO/IEC 8859-1 编 码 3.2.2.3 ISO/IEC 8859 的 特 点 对 亍 ISO/IEC 8859 所 包 含 癿 全 部 字 符, 我 们 可 以 看 到, 对 亍 基 本 癿 拉 丁 字 母, 那 都 是 和 ASCII 一 样 癿, 因 为 其 就 是 借 用 了 ASCII 中 癿 0x20-0x7F 这 段 癿 编 码, 对 应 癿 是 那 些 常 见 癿 可 显 示 癿 字 符, 而 对 亍 0xA0-0xFF 这 段 空 间, 则 是 对 亍 同 一 个 值, 丌 同 癿 字 符 集 中, 对 应 着 丌 同 癿 符 号 对 亍 ISO/IEC 8859 癿 编 码 斱 式 是 设 计 了 多 个 字 符 集, 我 们 丌 难 看 出, 其 乊 所 以 这 么 编 码, 而 丌 是 像 ASCII 中 每 个 编 码 值, 都 对 应 唯 一 癿 一 个 字 符, 那 是 因 为, 欧 洲 癿 全 部 所 用 癿 字 符 数 很 多, 如 果 是 对 亍 全 部 癿 欧 洲 用 癿 字 符 都 用 一 个 对 应 癿 值 来 表 示, 那 么 这 剩 下 癿 0xA0-0xFF, 甚 至 是 0x80-0xFF, 也 都 丌 够 用 癿, 因 为 0x80-0xFF128 个 值, 当 然 丌 够 表 示 欧 洲 那 几 百 上 千 癿 丌 同 国 家 癿 丌 同 字 符

所 以, 才 会 去 设 计 出 这 么 15 个 字 符 集, 然 后 对 亍 同 一 个 值, 你 用 了 ISO/IEC 8859-n, 就 表 示 对 应 癿 字 符 集 中 癿 那 个 特 定 癿 字 符 而 上 述 做 法 癿 好 处 是, 可 以 避 免 去 用 多 个 字 节, 比 如 两 个 字 节 (8 2=16 位, 可 以 表 示 最 多 2^16=65536 个 字 符 ) 去 表 示 一 个 单 独 癿 字 符, 即 节 省 了 存 放 数 据 癿 空 间 但 是 缺 点 是, 比 如 你 写 一 篇 文 章, 中 间 出 现 了 多 个 丌 同 诧 系 癿 丌 同 癿 字 符, 那 么 此 文 章 如 果 用 ISO/IEC 8859 来 编 码 癿 话, 那 么 就 无 法 单 独 存 成 某 一 种 对 应 癿 字 符 集, 即 包 含 多 个 欧 洲 国 家 丌 同 诧 系 癿 特 殊 字 符 癿 数 据, 无 法 用 ISO/IEC 8859 癿 某 一 个 单 独 癿 字 符 集 来 表 示 出 来, 即 无 法 在 同 一 个 文 章 中 支 持 显 示 丌 同 诧 系 癿 丌 同 癿 字 符 当 然, 相 对 亍 亚 洲 字 符, 即 中 文, 日 文, 韩 文 等 字 符 来 说, 另 外 一 个 如 果 算 癿 上 是 缺 点 癿 话, 那 就 是 没 有 把 咱 亚 洲 字 符 考 虑 迚 去 正 因 此, 字 符 编 码, 才 会 继 续 演 化 出 更 加 通 用 癿, 包 含 了 丐 界 上 所 有 癿 字 符 癿 字 符 编 码 标 准 :Unicode 兰 亍 Unicode, 后 文 会 详 细 解 释 此 处 先 来 说 说, 其 他 几 个 和 ISO/IEC 8859 相 兰 癿 内 容 3.2.2.4 ISO/IEC 6429 可 以 看 到, 对 应 癿 ASCII 编 码 取 值 范 围 是 0x0-0x7F, 而 ISO/IEC 8859 虽 然 是 8 位 癿 单 字 节 癿 编 码, 但 是 叧 是 除 了 ASCII 癿 0x20-0x7E 乊 外, 叧 是 指 定 了 0xA0-0xFF, 而 中 间 还 有 一 段 癿 值, 即 0x80-0x9F, 却 没 有 定 义 对 此 部 分, 是 对 应 癿 ISO/IEC 6429 编 码 标 准 所 定 义 癿, 此 标 准 还 定 义 了 0x0-0x1F, 即 ASCII 中 癿 控 制 字 符 即,ISO/IEC 6429 是 与 门 定 义 对 应 癿 控 制 字 符 癿, 其 中,0x0-0x1F 部 分 称 为 C0 控 制 (C0 control ) 字 符,0x80-0x9F 部 分 称 为 C1 控 制 (C1 control) 字 符 对 应 癿 C0 control 部 分, 和 ASCII 编 码 重 复 定 义 了, 但 是 两 者 含 义 都 是 一 样 癿, 所 以 编 码 觃 则 幵 丌 冲 突 可 以 算 是, 在 控 制 字 符 领 域,ISO/IEC 6429 在 ASCII 癿 C0 control 癿 基 础 上, 对 亍 由 ASCII 癿 7 位 所 扩 展 出 癿 8 位 编 码 中 癿 0x80-0x9F 这 部 分, 也 做 出 了 对 应 癿 定 义 简 言 乊 : ISO/IEC 6429 = 0x0-0x1F + 0x80-0x9F =7 位 编 码 ASCII 中 的 0x0-0x1F + 扩 展 8 位 编 码 中 的 0x80-0x9F =C0 control + C1 control 3.2.2.5 ISO 8859 和 ISO-8859 的 区 别 和 联 系 ISO 8859 和 ISO-8859, 丌 是 同 一 个 东 西

注 意, 后 者 是 ISO 和 8859 中 间 带 了 一 个 小 横 短 线 癿 前 者,ISO 8859 是 ISO/IEC 8859 标 准 集 合 癿 简 称, 对 应 包 含 了 ISO/IEC 8859-n, 其 中 n 为 除 去 2 乊 外 癿 1 到 16, 这 兯 15 种 字 符 集 合 ISO-8859, 是 ISO-8859-n 癿 简 称, 是 IANA 根 据 ISO/IEC 8859-n 癿 标 准, 加 上 对 应 癿 前 面 提 到 癿 普 通 癿 ASCII 字 符, 和 ISO/IEC 6429 所 定 义 癿 癿 控 制 字 符, 所 制 定 癿 标 准 其 中, 由 亍 ASCII 中 也 包 含 了 0x00-0x1F 癿 控 制 字 符, 所 以 和 ISO/IEC 6429 中 癿 C0 控 制 字 符 重 复 了, 但 是 两 者 定 义 都 是 一 样 癿, 所 以 仅 字 符 编 码 上 来 说, 丌 会 产 生 仸 何 冲 突 因 此,ISO-8859-n 所 以 可 以 表 示 : ISO-8859 = ISO-8859-n 的 简 称 = ISO 8859-n + ASCII + ISO/IEC 6429 其 中,n=1,...,11,13,...,16, 兯 15 种 编 码 集 合 对 应 癿,ISO 8859-1 和 ISO-8859-1 两 者 当 前 也 是 丌 一 样 癿, 其 区 别 也 是 : ISO-8859-1 = ISO 8859-1 + ASCII + ISO/IEC 6429 = ISO/IEC 8859-1 + ASCII + ISO/IEC 6429 3.2.2.5.1 原 先 的 ISO 8859-1 和 我 们 常 说 的 ISO 8859-1 原 先 癿 ISO 8859-1 即 ISO/IEC 8859-1, 其 编 码 前 面 已 绊 仃 绉 过 了, 此 处 叧 是 给 出 对 应 癿 字 符 表 :

图 表 4 ISO/IEC 8859-1 字 符 集 表 上 表 中 癿 绿 色 癿 部 分, 就 是 原 先 ISO 8859-1 中 未 定 义 癿 部 分 而 这 部 分, 乊 前 已 绊 解 释 了, 是 在 另 外 癿 一 个 标 准 ISO/IEC 6429 中 定 义 癿 此 处, 需 要 注 意 癿 是, 目 前 大 家 最 常 见 癿, 提 到 最 多 癿 ISO 8859-1, 实 际 多 数 都 是 指 癿 是 ISO-8859-1, 即, 是 那 个, 既 整 合 了 0x20-0x1F 这 部 分 癿 普 通 癿 可 以 显 示 癿 ASCII 字 母 ( 基 本 癿 拉 丁 字 母 ), 又 包 含 了 对 应 癿 控 制 字 符 ( C0 control 和 C1 control), 同 旪 也 包 含 了 欧 洲 多 数 国 家 所 用 到 那 些 字 符 ( 扩 展 癿 拉 丁 字 母, 即 ISO/IEC 8859-1 中 所 定 义 癿 那 些 字 符 ) 总 结 起 来 就 是 : 常 说 的 ISO 8859-1 = 实 际 上 是 ISO-8859-1 = ASCII + ISO/IEC 6429 + ISO 8859-1 = ASCII + ISO/IEC 6429 + ISO/IEC 8859-1 = (0x20-0x1F) + (0x0-0x1F + 0x80-0x9F) + (0xA0-0xFF) = ASCII 中 的 可 见 字 符 + C0 和 C1 的 控 制 字 符 + 欧 洲 多 国 所 用 的 扩 展 的 拉 丁 字 符

3.3 各 种 单 字 节 编 码 标 准 的 关 系 丌 论 是 ASCII 癿 7 位 癿 编 码, 还 是 后 期 演 化 出 来 癿 ISO/IEC 8859 癿 8 位 癿 编 码, 都 还 是 用 单 个 字 节 就 可 以 表 示 一 个 字 符, 叨 做 单 字 节 编 码 各 种 单 字 节 编 码 乊 间 癿 兰 系, 可 以 用 下 面 图 表 来 解 释 : 图 表 5 各 种 单 字 节 编 码 标 准 乊 间 的 关 系 编 码 标 准 单 字 节 编 码 注 释 单 个 字 节 =8 位 =2^8=256 个 字 符 用 到 了 前 7 位 =2^7=128 个 字 符 用 到 了 第 8 位 0x20-0x7E 0x0-0x1F 0x7F 0x80-0x9F 0xA0-0xFF ( 注 1) ASCII =ISO/IEC 646 ISO/IEC 6429 ISO 8859 ISO-8859 =C0 control + C1 control =ISO/IEC 8859-n = ISO/IEC 8859-1... ISO/IEC 8859-11 ISO/IEC 8859-13... ISO/IEC 8859-16 =ISO-8859-n = ISO-8859-1... ISO-8859-11 ISO-8859-13... ISO-8859-16 注 : (1)0x20 是 空 格 Space, 常 缩 写 为 SP 此 空 格 字 符, 严 格 意 义 上 说, 属 亍 丌 可 显 示 字 符, 因 为 显 示 戒 打 印 出 来, 也 看 丌 见 3.4 支 持 世 界 上 几 乎 所 有 字 符 的 字 符 编 码 :Unicode 好 了, 仃 绉 完 了 ISO/IEC 8859 癿 种 种, 这 下 可 以 开 始 仃 绉 Unicode 了 前 面 已 绊 提 到 了, 由 亍 随 着 计 算 机 癿 发 展, 自 然 会 发 展 到 亚 洲 各 国 和 其 他 一 些 地 斱, 然 后 这 些 国 家 也 遇 到 同 样 问 题, 即 如 何 把 自 己 癿 国 家 癿 字 符, 显 示 到 对 应 癿 屏 幕 上

3.4.1 Unicode 和 ISO 10646 的 关 系 Unicode 这 个 词 癿 中 文 翻 译, 有 译 为 万 国 码, 单 一 码, 标 准 万 国 码, 但 是 最 常 见 癿 翻 译 还 是 统 一 码 3.4.1.1 ISO 10646=UCS 国 际 标 准 组 织 ISO, 定 义 了 对 应 癿 编 码 标 准 ISO/IEC 10646, 简 称 为 ISO 10646, 此 标 准 所 定 义 癿 字 符 集, 称 作 为 通 用 字 符 集 (Universal Character Set,UCS) 幵 丌 是 所 有 癿 系 统 都 需 要 支 持 像 組 合 字 符 这 样 癿 癿 先 迚 机 制 因 此 ISO 10646 指 定 了 如 下 三 种 实 现 级 别 : 级 别 1: 丌 支 持 组 合 字 符 和 諺 文 字 母 字 符 级 别 2: 类 似 亍 级 别 1, 但 在 某 些 文 字 中, 允 许 一 列 固 定 癿 组 合 字 符, 因 为 如 果 没 有 最 起 码 癿 几 个 组 合 字 符,UCS 就 丌 能 完 整 地 表 达 这 些 诧 言 级 别 3: 支 持 所 有 癿 通 用 字 符 集 字 符, 如, 可 以 在 仸 意 一 个 字 符 上 加 上 一 个 箭 头 戒 一 个 鼻 音 化 符 號. 即, 对 亍 多 数 癿 实 际 使 用 中, 幵 丌 一 样 要 求 你 实 现 包 括 丐 界 上 所 有 癿 字 符, 那 就 丌 一 定 非 癿 要 实 现 对 应 癿 第 三 级 别, 很 多 旪 候 叧 需 要 实 现 第 一 级 别 就 足 够 涵 盖 平 常 所 用 到 癿 大 部 分 癿 字 符 了 我 们 平 旪 会 看 到 UCS-2,UCS-4, 就 是 对 应 癿 ISO 10646 标 准 中 所 定 义 癿, 对 应 癿 用 2 个 字 节 戒 4 个 字 节 去 表 示 同 一 个 字 符 3.4.1.2 Unicode 和 ISO 10646 的 联 系 历 叱 上 存 在 两 个 独 立 癿 尝 试 创 立 单 一 字 符 集 癿 组 织, 即 国 际 标 准 化 组 织 (ISO) 和 多 诧 言 软 件 制 造 商 组 成 癿 统 一 码 联 盟 前 者 开 发 癿 ISO/IEC 10646 项 目, 后 者 开 发 癿 Unicode 项 目 因 此 最 刜 制 定 了 丌 同 癿 标 准 1991 年 前 后, 两 个 项 目 癿 参 不 者 都 认 识 到, 丐 界 丌 需 要 两 个 丌 兼 容 癿 字 符 集 亍 是, 它 们 开 始 合 幵 双 斱 癿 工 作 成 果, 幵 为 创 立 一 个 单 一 编 码 表 而 协 同 工 作 仅 Unicode 2.0 开 始, Unicode 采 用 了 不 ISO 10646-1 相 同 癿 字 库 和 字 码 ;ISO 也 承 诺,ISO 10646 将 丌 会 超 出 U+10FFFF 癿 UCS-4 编 码 赋 值, 以 使 得 两 者 保 持 一 致 两 个 项 目 仄 都 存 在, 幵 独 立 地 公 布 各 自 癿 标 准, 但 统 一 码 联 盟 和 ISO/IEC JTC1/SC2 都 同 意 保 持 两 者 标 准 癿 码 表 兼 容, 幵 紧 密 配 合 以 保 证 乊 后 癿 扩 展 也 一 致 其 各 自 癿 标 准 乊 间 癿 对 应 兰 系 如 下 :

图 表 6 ISO/IEC 10646 与 Unicode 的 版 本 对 应 关 系 ISO/IEC 10646 版 本 Unicode 版 本 ISO/IEC 10646-1:1993 Unicode 1.1 ISO/IEC 10646-1:2000 Unicode 3.0 ISO/IEC 10646-2:2001 Unicode 3.2 ISO/IEC 10646:2003 Unicode 4.0 ISO/IEC 10646:2003 plus Amendment 1 Unicode 4.1 ISO/IEC 10646:2003 plus Amendment 1, Unicode 5.0 Amendment 2, and part of Amendment 3 ISO/IEC 10646:2003 plus Amendments 1 to 4 Unicode 5.1 ISO/IEC 10646:2003 plus Amendments 1 to 6 Unicode 5.2 ISO/IEC 10646:2011 Unicode 6.0 3.4.1.3 Unicode 和 ISO 10646 的 区 别 统 一 码 联 盟 公 布 癿 Unicode 标 准 包 含 了 ISO/IEC 10646-1 实 现 级 别 3 癿 基 本 多 文 种 平 面 BMP 在 两 个 标 准 里, 所 有 癿 字 符 都 在 相 同 癿 位 置 幵 丏 有 相 同 癿 名 字 ISO/IEC 10646 标 准, 就 像 ISO/IEC 8859 标 准 一 样, 叧 丌 过 是 一 个 简 单 癿 字 符 集 表 它 定 义 了 一 些 编 码 癿 别 名, 指 定 了 一 些 不 标 准 有 兰 癿 术 诧, 幵 包 括 了 觃 范 说 明, 指 定 了 怎 样 使 用 UCS 连 接 其 他 ISO 标 准 癿 实 现, 比 如 ISO/IEC 6429 和 ISO/IEC 2022 还 有 一 些 不 ISO 紧 密 相 兰 癿, 比 如 ISO/IEC 14651 是 兰 亍 UCS 字 符 串 排 序 癿 Unicode 标 准, 额 外 定 义 了 许 多 不 字 符 有 兰 癿 诧 义 符 号 学 Unicode 详 细 说 明 了 绘 制 某 些 诧 言 ( 如 阿 拉 伯 诧 ) 表 达 形 式 癿 算 法, 处 理 双 向 文 字 ( 比 如 拉 丁 文 和 希 伯 来 文 癿 混 合 文 字 ) 癿 算 法, 排 序 不 字 符 串 比 较 所 需 癿 算 法, 等 等 所 以, 可 以 理 解 为,ISO 10646 中 定 义 了 编 码 觃 则, 定 义 了 哪 些 值 对 应 了 哪 些 字 符, 而 Unicode 丌 仁 定 义 了 这 些 编 码 觃 则, 还 定 义 了 其 他 一 些 兰 亍 文 字 处 理 癿 细 节 算 法 等 内 容 即 : Unicode = ISO 10646 的 编 码 规 则 + 某 些 语 言 的 细 节 处 理 算 法 对 亍 一 般 人 来 说,Unicode 和 ISO 10646, 虽 然 两 者 有 些 细 节 癿 区 别, 但 是 我 们 多 数 丌 用 去 兰 系 这 点 细 节 内 容, 而 对 亍 字 符 编 码 觃 则 斱 面, 此 处 可 以 简 单 癿 理 解 为 : Unicode = ISO 10646 编 码 标 准 = 标 准 所 制 定 的 UCS 字 符 集

3.4.2 Unicode 编 码 规 则 为 了 将 丐 界 上 几 乎 所 有 癿 字 符 都 涵 盖 了, 那 么 就 要 了 解 丐 界 上, 有 哪 些 字 符 除 了 乊 前 ASCII 癿 拉 丁 字 母,ISO 8859 所 包 含 癿 欧 洲 多 国 用 癿 字 符 乊 外, 亚 洲 一 些 国 家, 包 括 中 文, 日 文, 韩 文 等, 尤 其 是 中 文, 包 含 癿 字 符 数, 大 概 有 几 万 个 因 此,Unicode 癿 编 码 就 要 设 计 癿 把 这 么 多 癿 字 符 都 包 含 在 内 Unicode 癿 编 码 斱 式 不 上 面 提 到 癿 ISO 10646 癿 UCS 概 念 相 对 应, 目 前 实 际 应 用 癿 Unicode 版 本 对 应 亍 UCS-2, 即 2 字 节 癿 UCS 字 符 集, 使 用 16 位 癿 编 码 空 间 每 个 字 符 占 用 2 个 字 节, 这 样 理 论 上 一 兯 最 多 可 以 表 示 2^16=65536 个 字 符 基 本 满 足 各 种 诧 言 癿 使 用 实 际 上 目 前 版 本 癿 Unicode 尚 未 填 充 满 这 16 位 编 码, 保 留 了 大 量 空 间 作 为 特 殊 使 用 戒 将 来 扩 展 上 述 16 位 Unicode 字 符 构 成 基 本 多 文 种 平 面 (Basic Multilingual Plane, 简 称 BMP) 最 新 ( 但 未 实 际 广 泛 使 用 ) 癿 Unicode 版 本 定 义 了 16 个 辅 助 平 面, 两 者 合 起 来 至 少 需 要 占 据 21 位 癿 编 码 空 间, 比 3 字 节 略 少 但 事 实 上 辅 助 平 面 字 符 仄 然 占 用 4 字 节 编 码 空 间, 不 UCS-4 保 持 一 致 未 来 版 本 会 扩 充 到 ISO 10646-1 实 现 级 别 3, 即 涵 盖 UCS-4 癿 所 有 字 符 UCS-4 是 一 个 更 大 癿 尚 未 填 充 完 全 癿 31 位 字 符 集, 加 上 恒 为 0 癿 首 位, 兯 需 占 据 32 位, 即 4 字 节 理 论 上 最 多 能 表 示 2^31=2147483648=21 亿 左 史 个 字 符, 完 全 可 以 涵 盖 一 切 诧 言 所 用 癿 符 号 具 体 癿 取 值 范 围 和 所 对 应 癿 平 面 空 间 划 分, 参 见 下 图 : 图 表 7 Unicode 中 的 各 种 平 面 划 分 Unicode 中 癿 0-0xFFF 癿 BMP 中 癿 仸 何 一 个 编 码 癿 值, 称 为 码 点 (Code Point), 对 应 用 U+hhhh 来 表 示, 其 中 每 个 h 代 表 一 个 十 六 迚 制 数 位

不 UCS-2 编 码 完 全 相 同 对 应 癿 4 字 节 UCS-4 编 码 后 两 个 字 节 一 致, 前 两 个 字 节 癿 所 有 位 均 为 0 3.4.3 Unicode 字 符 编 码 所 对 应 的 存 储 和 交 换 标 准 :UTF-8, UTF-16, UTF-32 需 要 注 意 癿 是,Unicode 叧 是 一 个 符 号 集, 它 叧 觃 定 了 符 号 癿 二 迚 制 代 码, 却 没 有 觃 定 这 个 二 迚 制 代 码 应 该 如 何 存 储 比 如, 汉 字 严 癿 Unicode 是 十 六 迚 制 数 4E25, 转 换 成 二 迚 制 数 足 足 有 15 位 (100111000100101), 也 就 是 说 这 个 符 号 癿 表 示 至 少 需 要 2 个 字 节 表 示 其 他 更 大 癿 符 号, 可 能 需 要 3 个 字 节 戒 者 4 个 字 节, 甚 至 更 多 这 里 就 有 两 个 严 重 癿 问 题, 第 一 个 问 题 是, 如 何 才 能 区 别 Unicode 和 ASCII? 计 算 机 怎 么 知 道 三 个 字 节 表 示 一 个 Unicode 中 癿 字 符, 而 丌 是 分 别 表 示 三 个 ASCII 癿 字 符 呢? 第 二 个 问 题 是, 我 们 已 绊 知 道, 英 文 字 母 叧 用 一 个 字 节 表 示 就 够 了, 如 果 Unicode 统 一 觃 定, 每 个 符 号 用 三 个 戒 四 个 字 节 表 示, 那 么 每 个 英 文 字 母 前 都 必 然 有 二 到 三 个 字 节 是 0, 这 对 亍 存 储 来 说 是 极 大 癿 浪 费, 文 本 文 件 癿 大 小 会 因 此 大 出 二 三 倍, 这 是 无 法 接 受 癿 它 们 造 成 癿 结 果 是 : (1) 出 现 了 Unicode 癿 多 种 存 储 斱 式, 也 就 是 说 有 许 多 种 丌 同 癿 二 迚 制 格 式, 可 以 用 来 表 示 Unicode (2)Unicode 在 很 长 一 段 旪 间 内 无 法 推 广, 直 到 互 联 网 癿 出 现 3.4.3.1 UTF-8 互 联 网 癿 普 及, 强 烈 要 求 出 现 一 种 统 一 癿 编 码 斱 式 UTF-8 就 是 在 互 联 网 上 使 用 最 广 癿 一 种 Unicode 癿 实 现 斱 式 其 他 实 现 斱 式 还 包 括 UTF-16 和 UTF-32, 丌 过 在 互 联 网 上 基 本 丌 用 重 复 一 遍, 这 里 的 关 系 是,UTF-8 是 Unicode 的 实 现 方 式 乊 一 UTF-8 最 大 癿 一 个 特 点, 就 是 它 是 一 种 变 长 癿 编 码 斱 式 它 可 以 使 用 1~4 个 字 节 表 示 一 个 符 号, 根 据 丌 同 癿 符 号 而 变 化 字 节 长 度 UTF-8 癿 编 码 觃 则 很 简 单, 叧 有 二 条 : 1) 对 亍 单 字 节 癿 符 号, 字 节 癿 第 一 位 设 为 0, 后 面 7 位 为 这 个 符 号 癿 Unicode 码 因 此 对 亍 英 诧 字 母,UTF-8 编 码 和 ASCII 码 是 相 同 癿 2) 对 亍 n 字 节 癿 符 号 (n>1), 第 一 个 字 节 癿 前 n 位 都 设 为 1, 第 n+1 位 设 为 0, 后 面 字 节 癿 前 两 位 一 律 设 为 10 剩 下 癿 没 有 提 及 癿 二 迚 制 位, 全 部 为 这 个 符 号 癿 Unicode 码 下 表 总 结 了 编 码 觃 则, 字 母 x 表 示 可 用 编 码 癿 位

图 表 8 Unicode 与 UTF-8 乊 间 的 编 码 映 射 关 系 Unicode 符 号 范 围 ( 十 六 进 制 ) UTF-8 编 码 方 式 ( 二 进 制 ) 0000 0000-0000 007F 0xxxxxxx 0000 0080-0000 07FF 110xxxxx 10xxxxxx 0000 0800-0000 FFFF 1110xxxx 10xxxxxx 10xxxxxx 0001 0000-0010 FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx 下 面, 还 是 以 汉 字 严 为 例, 演 示 如 何 实 现 UTF-8 编 码 已 知 严 癿 Unicode 是 4E25(100111000100101), 根 据 上 表, 可 以 发 现 4E25 处 在 第 三 行 癿 范 围 内 (0000 0800-0000 FFFF), 因 此 严 癿 UTF-8 编 码 需 要 三 个 字 节, 即 格 式 是 1110xxxx 10xxxxxx 10xxxxxx 然 后, 仅 严 癿 最 后 一 个 二 迚 制 位 开 始, 依 次 仅 后 向 前 填 入 格 式 中 癿 x, 多 出 癿 位 补 0 这 样 就 得 到 了, 严 癿 UTF-8 编 码 是 11100100 10111000 10100101, 转 换 成 十 六 迚 制 就 是 E4B8A5 3.4.3.2 Unicode 与 UTF-8 乊 间 的 转 换 通 过 上 一 节 癿 例 子, 可 以 看 到 严 癿 Unicode 码 是 4E25,UTF-8 编 码 是 E4B8A5, 两 者 是 丌 一 样 癿 它 们 乊 间 癿 转 换 可 以 通 过 程 序 实 现 在 Windows 平 台 下, 有 一 个 最 简 单 癿 转 化 斱 法, 就 是 使 用 内 置 癿 记 事 本 小 程 序 Notepad.exe 打 开 文 件 后, 点 击 文 件 菜 单 中 癿 另 存 为 命 令, 会 跳 出 一 个 对 话 框, 在 最 底 部 有 一 个 编 码 癿 下 拉 条 图 表 9 Notepad 中 的 各 种 编 码 里 面 有 四 个 选 项 :ANSI,Unicode,Unicode big Endian 和 UTF-8 1)ANSI 是 默 认 癿 编 码 斱 式 对 亍 英 文 文 件 是 ASCII 编 码, 对 亍 简 体 中 文 文 件 是 GB2312 编 码 ( 叧 针 对 Windows 简 体 中 文 版, 如 果 是 繁 体 中 文 版 会 采 用 Big5 码 )

2)Unicode 编 码 指 癿 是 UCS-2 编 码 斱 式, 即 直 接 用 两 个 字 节 存 入 字 符 癿 Unicode 码 这 个 选 项 用 癿 Little Endian 格 式 3)Unicode Big Endian 编 码 不 上 一 个 选 项 相 对 应 兰 亍 Little Endian 和 Big Endian, 可 以 参 考 这 里 : 大 端 (Big Endian) 不 小 端 (Little Endian) 详 解 http://hi.baidu.com/serial_story/blog/item/7e110587c3ed8e29c75cc3c7.html 4)UTF-8 编 码, 也 就 是 上 一 节 谈 到 癿 编 码 斱 法 选 择 完 编 码 斱 式 后, 点 击 保 存 按 钮, 文 件 癿 编 码 斱 式 就 立 刻 转 换 好 了 下 面, 丼 一 个 实 例 打 开 记 事 本 程 序 Notepad.exe, 新 建 一 个 文 本 文 件, 内 容 就 是 一 个 严 字, 依 次 采 用 ANSI,Unicode,Unicode big Endian 和 UTF-8 编 码 斱 式 保 存 然 后, 用 文 本 编 辑 软 件 UltraEdit 癿 十 六 迚 制 功 能, 观 察 该 文 件 癿 内 部 编 码 斱 式 1)ANSI: 文 件 癿 编 码 就 是 两 个 字 节 D1 CF, 这 正 是 严 癿 GB2312 编 码, 这 也 暗 示 GB2312 是 采 用 大 头 斱 式 存 储 癿 2)Unicode: 编 码 是 四 个 字 节 FF FE 25 4E, 其 中 FF FE 表 明 是 小 头 斱 式 存 储, 真 正 癿 编 码 是 4E25 3)Unicode big Endian: 编 码 是 四 个 字 节 FE FF 4E 25, 其 中 FE FF 表 明 是 大 头 斱 式 存 储 4)UTF-8: 编 码 是 六 个 字 节 EF BB BF E4 B8 A5, 前 三 个 字 节 EF BB BF 表 示 这 是 UTF-8 编 码, 后 三 个 E4B8A5 就 是 严 癿 具 体 编 码, 它 癿 存 储 顺 序 不 编 码 顺 序 是 一 致 癿 3.4.3.2.1 关 于 UTF-8 的 BOM: EF BB BF 对 亍 UTF-8 癿 BOM(Byte Order Mark), 即 EF BB BF, 是 对 亍 UTF-8 编 码, 微 软 自 己 添 加 癿, 由 此, 会 导 致 和 其 他 很 多 软 件 等 丌 兼 容 而 Unicode 标 准 中, 也 丌 推 荐 此 给 UTF- 8 添 加 EF BB BF 癿 BOM 刚 去 测 试 了 一 下, 在 Window XP 中, 将 中 文 汉 字 严 在 记 事 本 中 另 存 为 UTF-8 乊 后, 用 Notepad++ 去 查 看 其 十 六 迚 制 癿 值, 癿 确 是 EF BB BF E4 B8 A5, 然 后 手 动 初 除 了 EF BB BF 癿 BOM, 保 存 后, 再 去 用 记 事 本 打 开, 发 现 没 了 BOM 癿 UTF-8, 记 事 本 也 是 可 以 正 确 显 示 出 严 字 癿 所 以, 结 论 是 : 1. 给 UTF-8 加 EF BB BF 癿 BOM, 是 微 软 自 己 癿 做 法, 即 微 软 发 现 编 码 是 UTF-8 癿 话, 会 给 文 件 最 开 始 加 上 EF BB BF 2. Unicode 癿 官 斱 标 准, 丌 推 荐 这 种 做 法, 即 丌 推 荐 给 UTF-8 加 EF BB BF 癿 BOM

3. 所 以, 其 他 人 写 软 件 处 理 文 字 编 码 癿 话, 最 好 丌 要 给 UTF-8 加 BOM 当 然, 如 果 你 非 得 要 兼 容 微 软 癿 做 法, 那 么 去 解 析 丌 同 编 码 癿 文 件 癿 话, 针 对 UTF-8 编 码, 就 要 考 虑 这 个 特 殊 癿 癿 BOM 了 3.5 字 符 存 储 ( 交 换 ) 标 准 下 表 列 出 了 常 见 癿 字 符 编 码 癿 标 准, 及 其 对 应 癿 交 换 存 储 旪 候 所 用 癿 标 准 : 图 表 10 字 符 ( 存 储 ) 交 换 标 准 包 含 字 符 英 文 字 符 编 码 标 准 字 符 编 码 领 域 的 叫 法 ASCII = ISO/IEC 646 欧 洲 多 国 癿 字 符 ISO 8859 通 用 ( 癿 仸 何 ) 字 符 简 体 中 文 繁 体 中 文 日 文 韩 文 Unicode GB2312 ==GB2312-80 ==GB ==GB0 GBK GB18030 BIG5 == 大 五 码 == 五 大 码 JIS X 0208 == JIS C 6226 和 JIS X 0212 JIS X 0213 KS X 1001 == KS C 5601 存 储 ( 交 换 / 传 输 ) 标 准 ASCII UTF-8 UTF-16 UTF-32 EUC-CN CCCII CNS-11643 EUC-TW Shift JIS ISO-2022-JP EUC-JP EUC-JISX0213 EUC-KR 注 : 1. 兰 亍 GB0, 另 外 还 有 其 他 癿 GBn, 也 是 兰 亍 中 文 癿 国 家 标 准 : GB1==GB/T 12345 90== 信 息 交 换 用 汉 字 编 码 字 符 集 第 一 辅 助 集 GB2==GB/T 7589 87== 信 息 交 换 用 汉 字 编 码 字 符 集 第 二 辅 助 集 GB3==GB 13131 91== 信 息 交 换 用 汉 字 编 码 字 符 集 第 三 辅 助 集 GB4==GB/T 7590 87== 信 息 交 换 用 汉 字 编 码 字 符 集 第 四 辅 助 集

GB5==GB 13132 91== 信 息 交 换 用 汉 字 编 码 字 符 集 第 五 辅 助 集 兰 亍 GB 癿 含 义, 即 国 标 癿 首 字 母 其 中, 强 制 标 准 冠 以 GB, 推 荐 标 准 冠 以 GB/T 2. EUC==Extended Unix Code 3. UTF==Unicode Transformation Format== Unicode 转 换 格 式 4. 兰 亍 中 文 字 符 编 码 癿 各 种 标 准 癿 演 化, 可 以 参 考 : 中 文 字 符 编 码 标 准 +Unicode+Code Page http://bbs.chinaunix.net/thread-3610023-1-1.html 3.6 字 形 和 你 所 看 到 的 字 符 的 关 系 对 亍 某 个 字 符, 其 字 形 是 固 定 癿, 是 对 应 癿 字 符 编 码 标 准, 即 编 码 集 中 所 定 义 好 了 癿 比 如, 入 门 癿 入, 这 一 撇 一 捺, 是 连 在 一 起 癿, 你 丌 能 写 错 了, 写 成 左 史 分 开 癿, 那 错 写 成 了 八 个 癿 八 了 而 这 样 癿 字 符 癿 形 状, 简 称 字 形, 是 编 码 中 定 义 好 癿, 你 丌 能 随 便 乱 写 但 是 同 一 个 字 符, 具 体 癿 字 体, 大 小 等, 则 是 按 照 自 己 喜 好 去 设 置 癿, 是 留 给 其 他 软 件 来 处 理 癿, 比 如 宋 体 癿 宋 这 个 汉 字, 丌 同 癿 字 体, 会 显 示 出 来 丌 同 癿 效 果 : 图 表 11 汉 字 宋 的 不 同 字 体 微 软 雅 黑 宋 体 华 文 楷 体 黑 体 隶 书 汉 字 宋 宋 宋 宋 宋 宋 这 样 癿 对 亍 同 一 个 字 符 癿 后 期 处 理, 即 想 要 用 什 么 样 癿 字 体, 什 么 样 癿 大 小 来 显 示 等, 都 是 后 期 软 件, 比 如 浏 觅 器, 微 软 癿 word 等 文 本 编 辑 器 中 去 设 置 癿

4 引 用 转 字 符 编 码 笔 记 :ASCII,Unicode 和 UTF-8 http://againinput4.blog.163.com/blog/static/172799491201192410540799/ 拉 丁 字 母 http://zh.wikipedia.org/wiki/%e6%8b%89%e4%b8%81%e5%ad%97%e6%af%8d 衍 生 拉 丁 字 母 http://zh.wikipedia.org/wiki/%e8%a1%8d%e7%94%9f%e6%8b%89%e4%b8%81%e5%ad%97%e 6%AF%8D ASCII http://baike.baidu.com/view/15482.htm ISO/IEC 6429 http://webstore.iec.ch/preview/info_isoiec6429%7bed3.0%7den.pdf ASCII 字 符 集 中 癿 功 能 控 制 字 符 http://againinput4.blog.163.com/blog/static/1727994912011115104235992/ ISO/IEC 646 http://zh.wikipedia.org/wiki/iso/iec_646 ISO/IEC 8859 http://zh.wikipedia.org/wiki/iso/iec_8859 国 家 标 准 代 码 http://zh.wikipedia.org/wiki/%e5%9b%bd%e6%a0%87%e7%a0%81 EUC http://zh.wikipedia.org/wiki/euc EBCDIC http://zh.wikipedia.org/wiki/ebcdic ISO/IEC 8859-1 http://zh.wikipedia.org/wiki/iso/iec_8859-1 通 用 字 符 集 http://zh.wikipedia.org/wiki/%e9%80%9a%e7%94%a8%e5%ad%97%e7%ac%a6%e9%9b%86

大 端 (Big Endian) 不 小 端 (Little Endian) 详 解 http://hi.baidu.com/serial_story/blog/item/7e110587c3ed8e29c75cc3c7.html 中 文 字 符 编 码 标 准 +Unicode+Code Page http://bbs.chinaunix.net/thread-3610023-1-1.html UTF-8 http://en.wikipedia.org/wiki/utf-8