Microsoft Word - construct_smts.doc

Similar documents
Microsoft Word - 在VMWare-5.5+RedHat-9下建立本机QTopia-2.1.1虚拟平台a.doc

<4D F736F F D20BBB3BBAFD1A7D4BA C4EAB1CFD2B5C9FABECDD2B5D6CAC1BFB1A8B8E62E646F63>

AUCWA0501p00A.indd

Ioncube Php Encoder 8 3 Crack 4. llamaba octobre traslado General Search colony

Microsoft Word - Moses操作手册--冯洋.doc

考 試 日 期 :2016/04/24 教 室 名 稱 :602 電 腦 教 室 考 試 時 間 :09: 二 技 企 管 一 胡 宗 兒 中 文 輸 入 四 技 企 四 甲 林 姿 瑄 中 文 輸 入 二 技 企 管 一

「西醫基層總額支付委員會《第28次委員會議紀錄

第一章 系统概述

强迫症毁灭天才

Untitiled

中艺华海修改1.7.indd

北 京 蓝 皮 书 公 共 服 务 相 比 而 言, 养 老 医 疗 失 业 等 保 险 都 早 已 经 由 国 务 院 颁 布 了 相 应 的 立 法 条 例, 在 全 国 范 围 内 形 成 了 统 一 的 制 度 党 的 十 八 届 四 中 全 会, 首 次 以 依 法 治 国 为 主 题,

2006年中央、国家机关公务员录用考试


团 学 要 闻 我 校 召 开 共 青 团 五 届 九 次 全 委 ( 扩 大 ) 会 议 3 月 17 日, 我 校 共 青 团 五 届 九 次 全 委 ( 扩 大 ) 会 议 在 行 政 办 公 楼 五 楼 会 议 室 举 行, 校 团 委 委 员 各 院 ( 系 ) 团 委 书 记 校 学 生

<4D F736F F D20D1A7C9FACAD6B2E1B8C4D7EED6D5A3A8B4F8B1EDB8F1BCD3D2B3C2EBB0E6A3A9372E3239>

桂林市劳动和社会保障局关于

第三章 維修及管理

Microsoft Word 年度选拔硕博连读研究生的通知.doc

《佛子行三十七颂》讲记1

至 尊 法 王 蒋 阳 龙 朵 加 参 尊 者 上 师 瑜 伽 皈 依 境

(给多有拉姆)佛子行三十七颂1——7

由社會發展趨勢探討國人睡眠品質

Microsoft Word G...doc

今天 年春季号 总 92 期

*

( ) / / / / / / /

(Microsoft Word - 8\244T\244\362\277\337\272]\244W\265L\246W.doc)

Microsoft Word - 專家本色 doc


但, 你 应 该 听 过 我 们 走 在 大 路 上 这 首 歌, 或 许 还 知 道 革 命 人 永 远 是 年 轻 那 支 歌 ; 并 且, 几 乎 可 以 肯 定, 你 在 戴 红 领 巾 的 那 阵, 必 然 唱 过 牛 儿 还 在 山 坡 吃 草, 放 牛 的 却 不 知 道 哪 儿 去

2 临 终 助 念 答 问 序 临 终 关 怀, 由 佛 门 净 宗 古 来 祖 师 大 德 提 倡 助 念 往 生, 现 今 已 渐 为 社 会 大 众 所 重 视, 在 台 湾, 台 大 长 庚 等 各 大 医 院, 也 都 设 有 助 念 室 ; 大 陆 上 许 多 道 场, 也 有 专 为

校园之星

Microsoft Word - 澎湖田調報告-宏達組9804.doc

<4D F736F F F696E74202D FA8BEA861B8EAB7BDBEE3A658BB50C0B3A5CE28B773A6CBA5AB29>


之 原 則 及 國 防 部 訂 頒 國 軍 列 管 國 有 不 動 產 提 供 非 軍 方 單 位 使 用 處 理 原 則 規 定 不 符, 仍 應 以 出 租 方 式 辦 理 惟 可 就 偏 遠 地 區 提 供 官 兵 金 融 水 電 服 務 使 用 部 分, 研 議 降 低 租 金 標 準, 報

chineseall

釋禪波羅蜜次第法門

证券代码: 证券简称:锦江股份 公告编号:【】

1700 装 卸 搬 运 7645 装 卸 搬 运 服 务 2100 建 筑 7410 工 程 服 务 11% 装 卸 搬 运 服 务, 是 指 使 用 装 卸 搬 运 工 具 或 者 人 力 畜 力 将 货 物 在 运 输 工 具 之 间 装 卸 现 场 之 间 或 者 运 输 工 具 与 装 卸

前 言 教 育 无 小 事, 它 成 就 着 学 生 的 未 来 作 为 教 师, 他 们 无 时 无 刻 不 在 关 注 着 学 生 的 成 长 学 生 的 未 来 学 生 就 像 一 朵 含 苞 待 放 的 花 朵, 需 要 老 师 们 的 细 心 呵 护, 给 学 生 需 要 的 东 西, 而

《盗墓笔记》 南派三叔/著

平 凡 足 迹 李 本 川 作 者 为 中 国 科 学 院 海 洋 研 究 所 研 究 员,1935 年 生, 山 东 荣 成 人 我 今 年 63 岁 了 大 前 年 丈 夫 和 儿 子 在 一 个 月 内 先 后 离 开 了 人 世, 女 儿 又 已 出 嫁, 现 在 是 孑 然 一 身 我 是

<CFFBB7D1D5DFD0D0CEAAD1A72E6D7073>

独立学院建设与发展


. Outline 编译 Linux 在 QEMU 模拟器上运行制作带 grub 启动的磁盘映像...1 编译 Linux 在 QEMU 模拟器上运行...2 制作带 grub 启动的磁盘映像

深 圳 蓝 皮 书 (2008) 的 企 业 向 境 外 拓 展, 出 台 了 一 系 列 资 金 外 汇 等 扶 持 政 策, 鼓 励 企 业 向 境 外 拓 展, 逐 步 放 宽 对 外 投 资 管 理 下 放 权 力 简 化 程 序, 由 审 批 管 理 向 核 准 制 转 变, 开 始 构

赔 偿 ), 保 险 公 司 在 其 承 保 范 围 内 承 担 赔 偿 责 任 ;2 案 件 受 理 费 由 四 被 告 承 担 为 支 持 其 诉 讼 主 张, 原 告 江 明 相 在 举 证 期 限 内 向 本 院 提 供 了 下 列 证 据 材 料 供 法 庭 组 织 质 证 : 1 鉴 定

Microsoft Word - RAP CHI.doc

嵌入式系统实验报告之一

Microsoft Word 箕æ−¥ï¼‹å®ı稿;

98年度即測即評學科測試與即測即評即發證技術士技能檢定簡章

Ps22Pdf

《80后职场新鲜人生存手册》

目 錄 校 徽 圖 解 1 校 訓 釋 義 2 中 華 人 民 共 和 國 國 歌 3 順 德 聯 誼 總 會 屬 校 校 歌 4 辦 學 宗 旨 及 目 標 5 校 規 8 獎 懲 制 度 14 其 他 規 定 23 注 意 事 項 29 附 錄 33

Office Office Office Microsoft Word Office Office Azure Office One Drive 2 app 3 : [5] 3, :, [6]; [5], ; [8], [1], ICTCLAS(Institute of Computing Tech

计算机网络与经济(六).doc

Linux服务器构建与运维管理

六域链联盟 SDChain-Matrix 节点搭建指南 2018/07/26 Version : 1.0.0

书 名 : 作 者 : 出 版 社 : 出 版 :

退市制度改革注重保护中小投资者权益

南華大學數位論文

Microsoft Word - 改進教學報告 1

(CSR)...2 CA CA CA CA Base64 CA CA SSL

使用Cassandra和Spark 2.0实现Rest API服务

内 容 提 要 将 JAVA 开 发 环 境 迁 移 到 Linux 系 统 上 是 现 在 很 多 公 司 的 现 实 想 法, 而 在 Linux 上 配 置 JAVA 开 发 环 境 是 步 入 Linux 下 JAVA 程 序 开 发 的 第 一 步, 本 文 图 文 并 茂 地 全 程 指

<4D F736F F D20B9E3D6DDB4F3D1A C4EAB1BEBFC6BDCCD1A7D6CAC1BFB1A8B8E6D7EEBAF3B6A8B8E52E646F63>

ebook70-22

Converting image (bmp/jpg) file into binary format

池州学院文件

第三章 中原儺文化圈

2001 年 1 月 8 日 乌 克 兰 常 驻 联 合 国 代 表 团 临 时 代 办 给 秘 书 长 的 信 的 附 件 2000 年 12 月 15 日 乌 克 兰 总 统 列 奥 尼 德 库 奇 马 先 生 阁 下 在 关 闭 切 尔 诺 贝 利 核 电 厂 时 的 讲 话 我 要 就 一

Ctpu

艾滋病毒/艾滋病问题高级别会议:为联合国人口基金、联合国教育、科学及文化组织和联合国毒品和犯罪问题办事处联合举办的预防问题圆桌会议编写的讨论文件

ebook8-30


92_國教階段特教通報操作手冊

Outline 制作带 grub 启动的磁盘映像 利用 qemu+gdb 来调试 linux

臺北市98年度高職學生優良書籍閱讀心得寫作競賽成果報告目錄

Microsoft Word - Long-term Chinese course list Nov 2017.doc

Practical Guide For Employment Of Foreign Domestic Helpers

桃園縣秀才實驗學校多元適性發展的課程規畫

Apache CarbonData集群模式使用指南

江苏宁沪高速公路股份有限公司.PDF

untitled


一 登录 crm Mobile 系统 : 输入 ShijiCare 用户名和密码, 登录系统, 如图所示 : 第 2 页共 32 页

TERM 1 TERM 2 TERM 3 CA1 (10%) SA1 (20%) Prelim (70%) MCQ 20 10% MCQ 20 10% Language Use and (1) Grammar (2) Vocabulary (3) Vocabulary Cloze (8m) 28 (

F515_CS_Book.book

並 責 成 各 里 幹 事 下 里 服 勤 宣 導 病 媒 防 治 知 識, 協 助 各 家 戶 清 除 病 媒 孳 生 源 ( 積 水 容 器 ), 降 低 棲 群 密 度, 預 防 傳 染 病 之 發 生, 以 確 保 民 眾 身 體 健 康 及 居 家 生 活 品 質 訂 定 每 月 最 後

iv 不 必 詫 異, 其 實 成 功 與 失 敗 之 間 就 是 由 這 樣 簡 單 的 工 作 習 慣 造 成 的 可 見, 習 慣 雖 小, 卻 影 響 深 遠 遍 數 名 載 史 冊 的 成 功 人 士, 哪 位 沒 有 幾 個 可 圈 可 點 的 習 慣 在 影 響 着

广东奥飞动漫文化股份有限公司公开发行公司债券

Hadoop 2.2.0安装和配置lzo

DVK530/531扩展板

北京大学学报 ( 自然科学版 ) 图 1 使用短语对完成解码过程 ( 虚线框中是未生成的短语 对 ) Fig. 1 Decoding with using phrase pairs (phrase pair in dashed rectangle is not generated) 进行拼装, 完成

第壹拾篇

網路安全:理論與實務 第二版

untitled

Transcription:

利用现有软件构建统计机器翻译系统 刘洋 中国科学院计算技术研究所数字化技术研究室 yliu@ict.ac.cn 1 介绍 本文的主旨是介绍如何利用现有软件在很短的时间内构建一个统计机器翻译 (Statistical Machine Translation) 系统 重点将放在具体的操作上, 而不是相关的理论 2 准备工作 为了构建统计机器翻译系统, 必须准备一下资源 : [1] Linux 操作系统 ( 附带 gcc) 我用的是 Red Hat Linux 3.2.2-5,gcc 的版本是 3.2.2 20030222 如果您不知道自己的 Linux 系统的版本, 可以输入以下命令查看 :gcc -v 一般而言, 只要版本不要太低的 Linux 都能胜任 [2] 双语对齐语料库在本文演示的是建造将汉语翻译成英语的统计机器翻译系统, 因此采用的汉英对齐语料库 我使用的是下载自 http://www.nlp.org.cn/ 上的双语句对齐语料库, 规模为 1500 句对 [3] 目标语言语料库目标语言语料库是用做语言模型训练, 在此为了简便, 我采用了上述语料库中的 1500 句英语句子 [4] CMU-Cam Language Model Toolkit v2 这是一个语言模型工具, 用于生成语言模型, 以便解码器调用 [5] GIZA++ v2 (2003-09-30) 这是一个翻译模型工具, 实现了 IBM Model 1-5, 并且加入了一些新的特色 其前身是 GIZA [6] mkcls (2003-09-30) 这是生成 word class 的工具, 是作为 GIZA++ 的辅助程序 [7] 汉语的切分工具和英语的 tokenize 工具这是对语料进行预处理时需要使用的工具 汉语的切分工具可以使用 LDC Chinese Segmenter, 英文的 tokenize 工具可以选择 EGYPT 软件包中内含的一个工具 tokenizee.perl.tmpl

3 总体流程 有了这些资源, 我们就可以开始动手了 总体流程是这样的 : [1] 语料准备 [1] 构建语言模型 [2] 构建翻译模型 [3] 构建解码器 4 语料准备 首先您需要编程 ( 用您偏爱并且能熟练使用的编程语言 ) 将汉语句子和英语句子分别从 1500 句对中抽取出来存在两个文本文件中,1500 个汉语句子存放在文件 chinese 中,1500 个英语句子存放在 english 中 每个句子一行, 并且汉英对应句子的行号一一对应 然后, 您需要对 chinese 中的汉语句子进行切分, 也就是切成一个个的汉语词 对于 english 中的英语句子进行 tokenize 之后 english 用做语言模型的训练语料,chinese 和 english 用做翻译模型的训练语料 5 构建语言模型 5.1 语料预处理 构建语言模型要用到的语料是 english, 但是需要对它进行一些改动 由于 ISI Rewrite Decoder 采用 XML 文件格式作为输入文件, 有一些标记如 <s> 和 </s> 会用到 ISI Rewrite Decoder 要求语言模型必须能够识别 <s> 和 </s>, 把它当作一个句子的开始 为此, 在构建语言模型时我们需要做两件事 : [1] 写一个 Context Cue File(.ccs), 让语言模型知道 <s> 和 </s> 是标记, 而不是词汇 [2] 在训练语料中包含 <s> 和 </s>, 这样在语言模型生成的词典中能包含 <s> 和 </s> 这两个条件缺一不可 5.2 编译源代码 下面开始才操作, 我建立了一个文件夹 /home/lonios/research/ictsmts, 下载了 CMU-Cam_Toolkit_v2.tar.gz, 将解压后的文件夹 CMU-Cam_Toolkit_v2 复制到 ICTSMTS 目录中 目录 /home/lonios/research/ictsmts/cmu-cam_toolkit_v2 下应当包含 5 个文件夹和两个文件 : 文件夹 bin, doc, include, lib, src 文件 endian.sh, README 首先当然要看一下 README, 里面讲述了编译源代码的方法 然后, 进入 src 目录, 找到 Makefile, 用 vi 打开, 将 "#BYTESWAP_FLAG = -DSLM_SWAP_BYTES" 中的 "#" 去掉即可 如

果使用的是 PC, 就必须这样做 之后键入命令 make install, 这样就会编译源代码 编译成功后, 去 bin 目录看看, 就会发现已经生成了 12 个文件 : binlm2arpa,evallm,idngram2lm,idngram2stats,interpolate,mergeidngram, ngram2mngram,text2idngram,text2wfreq,text2wngram,wfreq2vocab,wngram2idngram 关于这 12 个文件的用法, 请您参考相关文档 5.3 生成语言模型 将 english 复制到 bin 目录中, 将其重命名为 a.text 然后在 a.text 中添加 <s> 和 </s>, 最好是分别置于一个句子的首尾 注意和句子中的其他词保持至少一个空格 这样才能保证 <s> 和 </s> 能出现在即将生成的词汇表中 输入命令./text2wfreq <a.text> a.wfreq, 这样就会生成 a.wfreq 文件 输入命令./wfreq2vocab <a.wfreq> a.vocab, 这样就会生成 a.vocab 文件 此时查看 a.vocab 文件, 会发现 <s> 和 </s> 出现在词汇列表里面了 输入命令./text2idngram -vocab a.vocab -buffer 5 <a.text> a.idngram, 这样就生成 a.idngram 文件 最后一步就是生成语言模型了, 之前必须写一个 a.ccs 文件, 来表明 <s> 和 </s> 是标记 a.ccs 文件的内容如下 : <s> </s> 就这么简单, 两个标记, 一个一行 然后, 键入命令./idngram2lm -idngram a.idngram -vocab a.vocab -context a.ccs -binary a.binlm OK, 这样我们就得到了一个二进制文件 a.binlm, 这就是语言模型! 利用 evallm 程序, 就可以计算任意英文句子的 P(e) 了 6 构建翻译模型 6.1 生成 word class 下载 mkcls.2003-09-30.tar.gz, 解压后复制到 ICTSMTS 目录下, 进入 mkcls-v2 目录 输入命令 make, 这样就会编译生成 mkcls 在 mkcls-v2 目录下建立一个子目录 temp, 将 mkcls chinese 和 english 拷贝到 temp 目录中. 输入命令./mkcls -c80 -n10 -pchinese -Vchinese.vcb.classes opt, 生成两个文件 :chinese.vcb.classes 和 chinese.vcb.classes.cats 输入命令./mkcls -c80 -n10 -penglish Venglish.vcb.classes opt, 生成两个文件 :english.vcb.class 和 english.vcb.classes.cats

6.2 编译并运行 GIZA++ 下载 GIZA++.2003-09-30.tar.gz, 解压后复制到 ICTMTES 目录下, 进入 GIZA++-v2 目录, 输入命令 make, 就可以编译生成 GIZA++ 同时还生成一个 plain2snt.out 输入命令./plain2snt.out chinese english, 生成四个文件 :chinese.vcb, english.vcb,chinese_english.snt 和 english_chinese.snt 在 GIZA++-v2 目录建立一个子目录 test, 将 GIZA++,chinese.vcb,english.vcb, chinese_english.snt,chinese.vcb.classes,chinese.vcb.classes.cats, english.vcb.class 和 english.vcb.classes.cats 复制到 test 目录里 输入命令./GIZA++ -S english.vcb -T chinese.vcb -C english_chinese.snt 随后就开始 IBM Model 1-5 的训练, 生成许多文件, 不再详述这些文件 7 构建解码器 7.1 设定环境变量 下载 isi-rewrite-decoder-r1.0.0a.tar.gz, 解压缩后复制到 ICTSMTS 目录, 进入 isi-rewrite-decoder-r1.0.0a 目录 进入 linux 目录 输入命令 export LD_LIBRARY_PATH="/home/lonios/research/ICTSMTS/isi-rewrite-decoder-r1.0.0a/linux 7.2 编写配置文件 编写配置文件 decoder.cfg, 内容如下 : LanguageModelFile = /home/lonios/research/ictsmts/cmu-cam_toolkit_v2/bin/a.binlm TranslationModelConfigFile = /home/lonios/research/ictsmts/giza++-v2/test/104-06-11.161715.lonios.decoder.config PrintAlignment = true PrintProbabilities = true 7.3 编写输入文件 编写输入文件 input.xml, 内容如下 : <?xml version="1.0" encoding="gbk"?> <doc> <s id="1"> 中国孩子都十分活泼.</s> <s id="2"> 政府应该大力促进经济发展.</s> <s id="3"> 谁是我们足球队里最强壮的人?</s> </doc>

7.4 复制相关文件 将 /home/lonios/research/ictsmts/giza++-v2/test/ 中的所有文件复制到 /home/lonios/research/ictmts/isi-rewrite-decoder-r1.0.0a/linux/ 中 7.5 生成 FZeroWords 查看 104-06-11.161715.lonios.Decoder.config 文件, 在最后一行会发现需要一个 104-06-11.161715.lonios.fe0_3.final 文件, 可是 GIZA++ 并不生成这个文件! 怎么办呢? 将 104-06-11.161715.lonios.n3.final 和 104-06-11.161715.lonios.trn.src.vcb 这两个文件复制到 /home/lonios/research/ictsmts/isi-rewrite-decoder-r1.0.0a/util 下, 这里面有个工具叫 rewrite.mkzerofert.perl, 我们要用到它 输入命令 :./rewrite.mkzerofert.perl 104-06-11.161715.lonios.trn.src.vcb 104-06-11.161715.lonios.n3.final 这时候终端上会打印以下内容 : the 0.978169 of 0.977899 to 0.962034, 0.879314 in 0.839314 and 0.809735 a 0.783997 这说明这些词是 FZeroWords, 在 /home/lonios/research/ictsmts/isi-rewrite-decoder-r1.0.0a/linux 下编写 104-06-11.161715.lonios.fe0_3.final 文件, 内容如下 : the of to, in and a 7.6 终于可以运行了!!! 经过许多复杂的配置, 现在终于可以运行了, 回到 /home/lonios/research/ictsmts/isi-rewrite-decoder-r1.0.0a/linux 目录, 输入以下命令 :./decoder.linux.public --config decoder.cfg input.xml

然后, 您就可以在屏幕上看到那三个句子的译文了! 8 后记 本文主要描述了构建一个汉译英统计机器翻译系统的主要步骤 关于具体每个指令的众多可选项并没有展开讨论, 这需要您自己去探索体会 另外, 每个软件包都有文档和说明, 您可以通过阅读这些资料获得更深刻的认识 希望通过这篇短文, 您也能构建一个自己的 SMTS! 历史 2004 年 6 月初稿 2004 年 9 月主要是用 GIZA++ 自带的 plain2snt.out 代替 EGYPT 里的 whittle, 同时修正了一些错误