如 何 进 行 汉 字 频 率 统 计 * 郭 曙 纶 ( 上 海 交 通 大 学 国 际 教 育 学 院, 上 海 200030) 摘 要 : 本 文 针 对 文 科 研 究 者, 对 使 用 通 用 软 件 进 行 汉 语 字 频 统 计 的 具 体 操 作 过 程 进 行 了 详 细 的 介 绍 关 键 词 : 汉 字 频 率, 统 计, 通 用 软 件 一 引 言 随 着 互 联 网 的 发 展 和 普 及, 人 们 利 用 网 络 收 集 语 料, 从 事 语 言 研 究 已 经 成 为 可 能 本 文 以 字 频 统 计 为 例, 详 细 介 绍 计 算 机 技 术 在 现 代 汉 语 研 究 中 的 应 用 考 虑 到 文 科 研 究 者 大 多 不 会 自 己 编 写 软 件, 因 此 本 文 讨 论 中 涉 及 到 的 软 件 全 都 是 通 用 的 或 免 费 的 软 件, 可 以 很 容 易 获 得, 这 些 软 件 包 括 : 网 际 快 车 Fine Reader UltraEdit( 可 从 互 联 网 免 费 下 载 ) Microsoft Office( 包 括 Word Excel 和 Access) 等, 即 本 文 完 全 是 针 对 文 科 研 究 者 所 做 的 汉 语 字 频 统 计 的 具 体 操 作 过 程 的 详 细 介 绍 所 用 语 料 全 部 来 自 互 联 网 文 章 将 分 成 以 下 几 个 部 分 来 具 体 说 明 如 何 运 用 计 算 机 来 进 行 汉 语 的 字 频 统 计 一 获 取 网 络 原 始 语 料 电 子 文 本 网 络 语 料 的 获 取 有 许 多 方 法, 如 常 用 网 际 快 车 软 件 就 可 以 批 量 下 载 HTML 网 页 文 件 二 原 始 语 料 的 初 步 处 理 : 格 式 转 换 与 文 件 合 并 利 用 软 件 Fine Reader 把 HTML 网 页 文 件 转 化 成 TXT 文 本 文 件, 并 且 合 并 成 一 个 大 文 件 三 合 并 文 本 文 件 的 处 理 : 保 证 每 个 汉 字 一 行 这 里 主 要 是 把 文 件 中 的 每 个 字 后 面 都 加 上 一 个 回 车 符, 这 样 便 于 把 文 本 中 的 汉 字 导 入 软 件 ACCESS 中 建 立 的 数 据 库 文 件 的 表 中 四 汉 字 次 数 与 字 频 统 计 在 ACCESS 中 利 用 软 件 自 带 的 重 复 查 询 功 能 统 计 汉 字 出 现 次 数, 并 计 算 出 频 率 五 汉 字 累 积 频 率 统 计 利 用 前 面 统 计 得 到 的 汉 字 出 现 次 数 在 软 件 EXCEL 中 计 算 出 累 积 字 频 二 汉 字 频 率 统 计 步 骤 ( 一 ) 获 取 网 络 原 始 语 料 电 子 文 本 网 络 语 料 的 获 取 有 许 多 方 法, 如 常 用 的 网 际 快 车 软 件 就 可 以 批 量 下 载 HTML 网 页 文 件 先 下 载 安 装 网 际 快 车 软 件 FlashGet, 然 后 对 于 需 要 下 载 的 那 个 网 页 右 击 调 出 快 捷 菜 单, 选 择 作 者 简 介 : 郭 曙 纶 (1967- ), 男, 江 西 省 遂 川 县 人, 博 士, 上 海 交 通 大 学 国 际 教 育 学 院 语 言 学 及 应 用 语 言 学 副 教 授 硕 士 生 导 师, 多 元 文 化 研 究 所 所 长, 主 要 研 究 方 向 为 对 外 汉 语 教 学 语 料 库 语 言 学 汉 语 语 义 分 析 * 本 文 得 到 上 海 交 通 大 学 国 际 教 育 学 院 科 研 创 新 计 划 项 目 基 于 语 料 库 技 术 的 汉 语 教 材 编 写 系 统 ( 课 题 批 准 号 08YTS02) 国 家 语 言 资 源 监 测 与 研 究 中 心 教 育 教 材 语 言 分 中 心 首 批 立 项 课 题 上 海 市 中 小 学 语 文 教 材 语 料 库 ( 课 题 批 准 号 E060106-06) 和 2006 年 度 上 海 市 哲 学 社 会 科 学 规 划 一 般 课 题 上 海 市 基 础 教 育 教 材 语 言 资 源 的 建 设 和 应 用 ( 课 题 批 准 号 2006BJY006) 的 经 费 资 助
使 用 快 车 (FlashGet) 下 载 全 部 链 接, 具 体 见 下 面 的 屏 幕 截 图 图 1.1 使 用 快 车 (FlashGet) 下 载 全 部 链 接 在 选 择 保 存 路 径 时 可 以 自 己 指 定 或 新 建 一 个 目 录, 这 样 可 以 保 证 下 载 某 些 相 同 主 题 的 网 页 文 件 能 够 下 载 到 同 一 个 目 录 下, 便 于 日 后 进 一 步 的 处 理 具 体 见 下 面 的 截 图
图 1.2 改 变 快 车 (FlashGet) 下 载 的 目 标 目 录 下 载 完 成 后 就 得 到 了 我 们 需 要 处 理 的 最 原 始 的 语 料 文 件, 等 待 下 一 步 的 处 理 ( 二 ) 原 始 语 料 的 初 步 处 理 : 格 式 转 换 与 文 件 合 并 在 得 到 原 始 的 HTML 网 页 文 件 后, 一 般 不 能 直 接 处 理, 需 要 把 它 们 转 换 成 TXT 文 本 文 件, 并 且 为 了 后 面 处 理 的 方 便, 需 要 把 转 换 后 的 TXT 文 本 文 件 合 并 成 一 个 大 的 文 本 文 件 这 一 步 骤 可 以 利 用 软 件 Fine Reader( 这 个 软 件 可 从 互 联 网 上 免 费 下 载 得 到 ), 先 把 HTML 格 式 的 网 页 文 件 转 化 成 TXT 格 式 的 文 本 文 件, 转 换 后 还 可 以 利 用 软 件 Fine Reader 的 合 并 功 能 把 转 换 好 的 文 本 文 件 合 并 成 一 个 大 的 文 本 文 件 从 互 联 网 上 下 载 的 网 页 绝 大 部 分 都 是 HTML 格 式 的 文 件, 我 们 在 对 其 进 行 统 计 之 前 应 首 先 对 其 进 行 格 式 转 换, 即 由 HTML 格 式 转 换 为 TXT 格 式, 并 将 所 有 的 TXT 文 件 合 并 为 一 个 文 件 具 体 过 程 如 下 : (1) 使 用 Fine Reader 软 件 进 行 转 换 合 并 Fine Reader 是 一 个 专 为 整 理 电 子 版 小 说 而 开 发 的 工 具, 包 括 HTML 到 文 本 文 件 的 转 换 文 件 合 并 段 落 合 并 段 落 切 分 文 本 替 换 内 码 转 换 ( 只 能 在 Win 2k/XP 下 用 ) 文 件 切 分 tcr 文 件 压 缩 / 解 压 等 功 能 本 文 只 需 要 用 到 其 中 的 前 两 个 功 能 : Html Text 和 文 件 合 并 见 下 面 的 截 图 ( 图 2.1): 图 2.1 Fine Reader 软 件 图 2.2 Html Text 的 转 换 步 骤 如 下 : Ⅰ. 在 Html Text 界 面 下 1. 选 择 如 何 转 换 HTML.Tag 中 点 击 典 型 中 文 HTML 按 钮, 再 点 击 2. 开 始 转 换 按 钮 就 会 打 开 需 要 转 换 的 文 件 ( 支 持 多 选 ) 对 话 框, 选 中 所 有 要 转 换 的 HTML 文 件 ( 选 中 多 个 文 件 的 方 法 : 单 击 第 一 个 文 件, 按 住 SHIFT 键 的 同 时 单 击 最 后 一 个 文 件, 或 者 直 接 按 CTRL 键 + 字 母 A 键 ) 最 后 点 击 打 开 按 钮 进 行 转 换 ( 见 图 2.2) 注 意 : 默 认 状 态 下 删 除 源 文 件 是 勾 选 上 了 的, 请 单 击 后 清 除 该 选 项, 这 样 就 不 会 删 除 原 始 语 料 的 网 页 文 件 Ⅱ. 新 建 一 个 文 件 夹 ( 例 如, 在 D 盘 根 目 录 下 新 建 一 个 名 为 WENBEN 的 文 件 夹 ), 并 将 步 骤 Ⅰ 中 转 换 后 得 到 的 TXT 文 本 文 件 全 部 复 制 到 该 文 件 夹 中
Ⅲ. 新 建 一 个 文 本 文 件, 最 好 不 要 位 于 前 面 新 建 的 文 件 夹 WENBEN 下 ( 例 如, 可 以 在 D 盘 根 目 录 下 新 建 一 个 名 为 TEXT 的 文 本 文 件 ) 单 击 软 件 最 上 面 一 排 中 的 文 件 合 并, 进 入 文 件 合 并 界 面 在 文 件 合 并 界 面 下 1. 选 择 合 并 后 的 文 件 ( 目 标 文 件 ) 中 点 击 选 择 按 钮, 弹 出 选 择 输 出 文 件 对 话 框, 选 中 刚 才 新 建 的 TEXT 文 本 文 件, 点 击 保 存 按 钮 图 2.3 文 件 合 并 : 选 择 目 标 文 件 Ⅳ. 在 文 件 合 并 界 面 下 点 击 4. 开 始 合 并 按 钮, 弹 出 需 要 合 并 的 文 件 ( 支 持 多 选 ) 对 话 框, 找 到 步 骤 Ⅱ 中 新 建 的 WENBEN 的 文 件 夹, 选 中 该 文 件 夹 内 所 有 的 文 本 文 件 ( 选 中 多 个 文 件 的 方 法 同 步 骤 Ⅰ) 点 击 打 开 按 钮, 进 行 文 件 合 并 合 并 完 毕 后, 全 部 从 网 上 下 载 的 HTML 文 件 都 以 TXT 形 式 保 存 到 一 个 名 为 TEXT 的 文 本 文 件 之 中 图 2.4 文 件 合 并 : 选 择 待 合 并 文 件 (2) 使 用 CMD 命 令 实 现 合 并 在 某 些 特 殊 情 况 下, 当 Fine Reader 软 件 只 可 以 实 现 文 件 的 转 换, 而 无 法 将 众 多 TXT 文 件 合 并 为 一 个 文 件 时, 或 者 说 有 人 更 习 惯 于 使 用 简 单 的 DOS 命 令 时, 我 们 可 以 利 用 Windows 自 带 的 CMD 程 序 进 行 文 件 的 合 并
Ⅰ. 用 Fine Reader 软 件 实 现 文 件 转 换, 并 复 制 在 一 个 新 的 文 件 夹 中 方 法 同 (1) 中 步 骤 Ⅰ 和 步 骤 Ⅱ Ⅱ. 新 建 一 个 文 本 文 件 ( 例 如, 在 D 盘 上 新 建 一 个 名 为 TEXT 的 文 本 文 件, 路 径 为 D:\TEXT.TXT ) Ⅲ. 在 开 始 中 选 择 运 行 键 入 CMD 点 击 确 定, 进 入 C:\WINDOWS\system32\cmd.exe 界 面 图 2.5 文 件 合 并 : 用 DOS 命 令 ( 启 动 DOS) Ⅳ. 键 入 copy+ 空 格 + ( 步 骤 Ⅰ 中 转 换 后 所 有 *.txt 文 件 所 在 的 文 件 夹 路 径, 即 D:\WENBEN\ )+*.*+ 空 格 +D:\TEXT.TXT, 按 回 车, 即 将 所 有 的 TXT 文 件 合 并 为 一 个 名 为 TEXT.TXT 的 文 件 中 图 2.6 文 件 合 并 : 用 DOS 命 令 ( 输 入 DOS 命 令 ) 图 2.7 文 件 合 并 : 用 DOS 命 令 ( 输 入 DOS 命 令, 按 回 车 键 后 ) 或 者 简 单 一 点 的 操 作 : Ⅳ. 键 入 D:, 按 回 车, 转 到 D 盘 根 目 录 下 然 后 键 入 cd+ 空 格 + WENBEN, 按 回 车, 进 入 WENBEN 文 件 夹 ( 目 录 ) 接 着, 键 入 copy+ 空 格 +*.*+ 空 格 +TEXT.TXT, 按 回 车, 即 将 所 有 的 TXT 文 件 合 并 为 一 个 名 为 TEXT.TXT 的 文 件 中 ( 位 于 WENBEN 文 件 夹 中 )
图 2.8 文 件 合 并 : 用 DOS 命 令 (2) ( 三 ) 合 并 文 本 文 件 的 处 理 : 保 证 每 个 汉 字 一 行 对 合 并 后 的 文 本 文 件 进 行 处 理, 以 便 后 续 的 加 工 处 理 这 里 主 要 是 把 文 件 中 的 每 个 汉 字 后 面 都 加 上 一 个 回 车 符, 这 样 便 于 把 文 本 中 的 汉 字 导 入 程 序 ACCESS 中 建 立 的 数 据 库 文 件 的 表 中 我 们 用 UltraEdit-32 Professional Text/Hex Editor 工 具 软 件 ( 以 下 简 称 为 UltraEdit 软 件 ) 对 合 并 好 的 TEXT.TXT 文 件 进 行 处 理 UltraEdit 软 件 是 一 个 专 业 文 本 / 十 六 进 制 编 辑 器 对 于 规 模 较 大 的 文 本 文 件 来 说, 在 运 行 速 度 方 面,UltraEdit 软 件 要 比 Microsoft Word 具 有 明 显 的 优 势 UltraEdit 软 件 界 面 如 图 :
图 3.1 UltraEdit 软 件 界 面 图 为 了 降 低 一 些 非 汉 字 符 的 干 扰, 我 们 首 先 对 文 件 中 的 文 本 进 行 整 理, 将 所 有 的 回 车 符 制 表 符 和 空 格 删 除 方 法 如 下 : 按 Ctrl+R 键 调 出 替 换 对 话 框, 在 查 找 内 容 后 输 入 ^P, 替 换 为 后 为 空, 点 击 全 部 替 换, 这 样 就 把 文 本 中 所 有 的 回 车 符 删 掉 了 同 样 的 方 法, 在 查 找 内 容 中 分 别 敲 入 ^t 和 空 格 键, 可 以 将 文 本 中 所 有 的 制 表 符 及 空 格 删 掉 图 3.2 替 换 与 插 入 回 车 符 图 在 文 件 (F) 下 拉 菜 单 中, 选 中 特 殊 功 能 二 级 菜 单 里 的 每 个 增 量 处 插 入 字 符 串 ( 见 图 3.2), 出 现 对 话 框 : 图 3.3 插 入 回 车 符 对 话 框 在 输 入 要 插 入 的 字 符 中 输 入 ^p, 在 插 入 字 符 串 的 文 件 增 量 ( 记 录 长 度 ) 后 键 入 数 字 1 ( 原 来 的 默 认 值 为 0 ), 点 击 确 定, 即 实 现 每 个 字 符 单 独 一 行 ( 见 图 3.3) 切 记 这 一 过 程 需 要 在 U-DOS 状 态 下 进 行 ( 要 保 证 文 件 是 处 于 U-DOS 状 态, 可 以 在 文 件 (F) 下 拉 菜 单 中, 选 中 转 换 二 级 菜 单 里 的 ASCII 到 Unicode, 见 图 3.4) 最 后 对 此 文 件 进 行 保 存 ( 例 如, 以 待 处 理 文 本.txt 为 文 件 名 另 存 到 D 盘 根 目 录 下 )
图 3.4 转 换 成 U-DOS ( 四 ) 汉 字 次 数 与 字 频 统 计 在 ACCESS 中 利 用 软 件 自 带 的 重 复 查 询 功 能 统 计 汉 字 出 现 次 数, 并 计 算 出 频 率 ⑴ 打 开 Microsoft Office 中 的 Microsoft Office Access, 新 建 一 个 空 数 据 库, 取 名 为 字 频 统 计.mdb, 创 建 在 D 盘 根 目 录 下 在 弹 出 字 频 统 计 : 数 据 库 (Access 2000 文 件 格 式 ) 对 话 框 后, 点 击 新 建 按 钮, 在 新 建 表 对 话 框 中 选 择 导 入 表, 点 击 确 定 按 钮, 如 图 所 示 : 图 4.1 导 入 文 本 文 件 中 的 数 据 将 保 存 在 D 盘 根 目 录 下 的 待 处 理 文 本.txt, 按 照 向 导 提 示 一 步 步 导 入 到 一 个 新 建 的 待 处 理 文 本 : 表 中, 导 入 后 的 样 式 如 图 4.2, 并 记 录 表 下 方 的 共 有 记 录 数 ( 图 4.2 中 共 有 记 录 数 为 174558):
图 4.2 文 本 数 据 导 入 成 功 ⑵ 在 图 4.2 状 态 下, 点 击 查 询, 切 换 到 查 询 视 图, 点 击 新 建 按 钮, 弹 出 新 建 查 询 对 话 框, 选 择 查 找 重 复 项 查 询 向 导, 点 击 确 定, 按 照 向 导 提 示, 将 字 段 1 作 为 重 复 值 字 段 进 行 查 找, 最 后 生 成 名 为 查 找 待 处 理 文 本 的 重 复 项 的 查 询, 默 认 生 成 的 查 询 是 所 有 大 于 1 的 字 段, 而 我 们 想 要 得 到 文 本 中 出 现 过 的 所 有 不 重 复 汉 字, 故 我 们 点 击 鼠 标 右 键, 选 择 SQL 视 图, 将 最 后 一 行 语 句 HAVING (((Count([ 待 处 理 文 本 ]. 字 段 1))>1)); 改 为 HAVING (((Count([ 待 处 理 文 本 ]. 字 段 1))>0));, 点 击 运 行 按 钮 ( 即 红 色 感 叹 号 ) 待 新 的 查 询 结 果 产 生 后, 将 光 标 放 在 字 段 NumberOfDups 上, 单 击 鼠 标 右 键, 在 菜 单 中 选 择 ZA ( 降 序 排 列 ) 按 钮, 即 将 文 本 中 不 同 汉 字 按 所 出 现 的 次 数 从 高 到 低 显 示 出 来 最 后 将 结 果 保 存 ⑶ 我 们 要 在 字 频 统 计.mdb 数 据 库 中 新 建 一 个 名 为 : 字 频 的 表, 步 骤 如 下 : Ⅰ. 打 开 字 频 统 计 : 数 据 库 (Access 2000 文 件 格 式 ) 对 话 框, 点 击 新 建 按 钮, 在 新 建 表 对 话 框 中 选 择 设 计 视 图, 点 击 确 定 按 钮 ( 即 在 图 4.1 状 态 下, 将 点 击 导 入 表 换 为 点 击 设 计 视 图 ) Ⅱ. 在 设 计 视 图 界 面 下, 字 段 名 称 中 由 上 至 下 依 次 键 入 ID 字 次 数 频 率, 在 各 自 后 的 数 据 类 型 中 依 次 选 择 自 动 编 号 文 本 数 字 数 字 这 些 数 据 类 型, 并 将 ID 字 段 设 为 主 键 如 图 所 示 : 图 4.3 新 建 数 据 表 Ⅲ. 将 此 表 以 字 频 为 表 名 保 存
⑷ 将 ⑵ 中 保 存 的 结 果, 即 查 询 视 图 下 的 查 找 待 处 理 文 本 的 重 复 项 中 所 有 内 容 选 中 ( 按 住 Ctrl 键 的 同 时 按 A 键 ), 复 制 粘 贴 到 字 频 表 中 的 字 和 次 数 两 个 字 段, 对 运 行 结 果 进 行 保 存 ⑸ 在 查 询 视 图 中 新 建 一 设 计 视 图, 将 字 频 表 添 加 到 选 择 查 询 中, 在 选 择 查 询 页 面 中 单 击 鼠 标 右 键, 选 择 SQL 视 图, 将 其 中 的 内 容 改 为 update 字 频 set 频 率 = 次 数 /174558*1000000,174558 为 步 骤 ⑴ 中 共 有 记 录 数, 乘 以 1000000 即 为 频 率 的 百 万 分 比 点 击 运 行 按 钮, 结 果 会 显 示 在 字 频 表 中 频 率 一 栏, 如 图 所 示 : 图 4.4 计 算 出 次 数 与 频 率 我 们 统 计 出 的 结 果 就 是 所 有 从 网 站 上 下 载 的 文 件 中 所 有 汉 字 ( 包 括 标 点 符 号 ) 的 出 现 次 数 和 它 们 的 出 现 频 率 ( 五 ) 汉 字 累 积 频 率 统 计 利 用 前 面 统 计 得 到 的 汉 字 出 现 次 数 在 EXCEL 程 序 中 可 以 计 算 出 累 积 字 频 打 开 Microsoft Excel 2003, 将 前 面 在 Access 中 做 出 的 字 频 表 粘 贴 到 Excel 表 中, 依 次 添 加 累 积 次 数 和 累 积 频 率 两 列 把 次 数 列 中 第 一 个 数 ( 即 C2 中 的 数 据 ) 复 制 到 累 积 次 数 列 下 的 第 一 个 格 ( 即 E2) 中, 在 E3 中 进 行 如 下 操 作 : 输 入 = ; 点 击 C3 ; 输 入 + ; 点 击 E2 如 图 所 示 : 图 5.1 计 算 累 积 次 数 和 累 积 频 率 按 回 车 后, 运 行 出 结 果, 将 鼠 标 放 在 E3 的 右 下 角, 当 箭 头 变 成 实 心 十 字 时 拖 动 鼠 标 直 至 本 列 数 据 的 最 后 一 行 累 积 次 数 计 算 完 成 计 算 累 积 频 率 在 F2 中 进 行 如 下 操 作 : 输 入 = ; 点 击 E2 ; 输 入 / ; 输 入 累 积 次 数 列 中 最 后 一 个 数 据, 也 就 是 总 的 累 积 次 数 ; 输 入 *10000, 即 得 累 积 频 率 的 万 分 比 拖 动 鼠 标, 得 到 字 的 累 积 频 率, 根 据 这 个 数 据, 我 们 可 以 分 析 诸 如 高 频 字 的 某 些 特 点 将 累 积 次 数 和 累 积 频 率 两 列 复 制 到 Access 中, 再 将 表 格 复 制 到 Word 中 作 为 输 出 结 果 保 存
( 六 ) 字 频 统 计 结 果 下 面 是 字 频 统 计 的 部 分 结 果 : 汉 字 次 数 频 率 累 积 频 率 的 17092 41820 41820 一 5616 13741 55561 是 5119 12525 68086 了 4176 10218 78304 中 4089 10005 88308 不 4046 9900 98208 在 3856 9435 107643 人 3511 8591 116233 国 3488 8534 124768 有 3455 8454 133221 我 2965 7255 140476 这 2914 7130 147606 个 2418 5916 153522 来 2277 5571 159093 他 2221 5434 164527 会 2210 5407 169935 和 2208 5402 175337 上 2148 5256 180593 为 2087 5106 185699 大 1952 4776 190475 主 1909 4671 195146 子 1806 4419 199565 们 1702 4164 203729 生 1694 4145 207874 以 1691 4137 212012 年 1671 4089 216100 地 1648 4032 220132 学 1602 3920 224052 家 1594 3900 227952 时 1580 3866 231818 对 1568 3837 235655 代 1526 3734 239388 分 1496 3660 243049 化 1496 3660 246709 到 1475 3609 250318 说 1473 3604 253922 要 1459 3570 257492 自 1443 3531 261023 也 1426 3489 264512 社 1420 3474 267986 经 1393 3408 271394 现 1387 3394 274788 出 1366 3342 278130 文 1346 3293 281424 就 1341 3281 284705 作 1330 3254 287959 着 1308 3200 291159 而 1294 3166 294325 道 1277 3125 297450 之 1261 3085 300535 发 1259 3080 303616 义 1259 3080 306696 于 1251 3061 309757 过 1221 2987 312745 方 1210 2961 315705 下 1198 2931 318636 能 1186 2902 321538 新 1141 2792 324330 得 1113 2723 327053 可 1091 2669 329723 多 1080 2642 332365 种 1076 2633 334998 知 1070 2618 337616 成 1063 2601 340217 那 1057 2586 342803 政 1038 2540 345343 民 1024 2505 347848 里 1005 2459 350307 本 1001 2449 352757 当 988 2417 355174 面 968 2368 357542 后 958 2344 359886 看 957 2342 362228 识 955 2337 364565 制 938 2295 366860 心 923 2258 369118
三 结 语 运 用 计 算 机 可 以 在 短 时 间 内 实 现 手 工 计 算 难 以 达 到 的 大 规 模 语 料 的 字 频 词 频 等 的 统 计 工 作, 为 语 言 研 究 带 来 了 很 大 的 方 便 这 里 介 绍 的 是 我 们 在 面 对 较 小 规 模 的 语 料 时 进 行 字 频 统 计 工 作 时 所 做 的 一 些 具 体 操 作 步 骤 如 果 进 行 词 频 的 统 计, 其 方 法 类 似, 而 且 比 字 频 统 计 要 简 单 一 些 因 为 词 频 统 计 时, 语 料 已 经 分 词, 词 与 词 之 间 都 有 分 隔 符, 一 般 是 空 格 或 斜 杠, 在 前 面 的 处 理 字 频 时 使 得 每 字 一 行 这 一 步 骤 时, 换 成 使 得 每 词 一 行 就 行 此 时 只 需 要 把 每 一 个 分 隔 符 ( 空 格 或 斜 杠 ) 替 换 成 回 车 符 就 可 以 了, 比 做 字 频 统 计 时 要 简 单 本 文 尝 试 把 笔 者 个 人 在 汉 语 研 究 中 使 用 的 字 频 统 计 工 作 做 了 一 个 图 文 并 茂 的 详 细 介 绍, 希 望 对 汉 语 研 究 的 同 仁 们 能 够 有 所 帮 助 当 然 本 文 所 介 绍 的 方 法 显 然 不 能 适 应 超 大 规 模 语 料 库 的 字 频 词 频 统 计 工 作 的 需 要 因 为 这 需 要 用 到 专 门 的 统 计 软 件, 而 这 不 是 本 文 所 能 说 清 楚 的