计算辅助翻译原理与实践 俞敬松 机器翻译与本地化工程概论 ( 上 ) Introduction to Machine Translation and Localization Engineering
机器翻译的现状 人所共知 热热闹闹的机器翻译 跨越语言障碍的利器 低成本 快速获取不精确信息 语言服务行业 高质量语言 - 文化的转换 跨语言跨文化的沟通交流 我们前面提到的 : 广义的或扩展的翻译目的论
语言服务行业中机器翻译有用吗? 1. 提高生产效率, 降低生产成本 2. 快速获取低质量译文时, 价值更大 有用, 绝对有用 1. 生产量上升, 但是译员的收入没有增加 2. 低质量机器翻译译文, 无助译员的工作 没用, 纯粹添堵
机器翻译在语言服务行业的 真相 技术的适用性 分清楚适用的领域与人 1. 多份报告证明, 机器翻译对初级译员有用 2. 对于资深译员, 适当的运用形式也很重要 技术的形态 技术形态的多样性, 切勿眼光僵化 1. 大规模快速批处理翻译 2. 可定制化的机器翻译引擎 ( 规则 语料 ) 3. 译前 / 译后编辑模式 4. 交互式机器翻译模式
交互式机器翻译
所以, 我们应该 : 拥抱一切可以提高效率的技术, 而且要走在行业的前列 ; 不断探索新技术, 掌握技术发展的脉络, 让技术为自己所用!
机器翻译的历史与挑战 任何事情只要有需求, 就不会缺乏有勇气的挑战者
机器翻译的历史 机器翻译的历史与人类认知的规律一致 需求 失败 冷静 热情 投入 再思考 再出发 1930 年 : 真正的 机器翻译 专利 Georges Artsrouni and a Russian Petr Troyanskii
Georges Artsrouni and Petr Troyanskii
机器翻译的历史 1947-1954 The pioneers The late 1990s 2000s 1954-1966 The decade of optimism The early 1990s 1966-1980 The aftermath of the ALPAC report The 1980s http://www.translationdirectory.com/article411.htm
机器翻译的现状 1 政治 经济的全球化发展, 需求牵引下的技术热点 2 Internet 的大发展, 信息技术渗透到生活方方面面 3 机器翻译研究获得了前所未有的基础和优越条件 语料资源, 信息检索, 搜索引擎 数学工具 ( 概率统计 )- 计算数学 - 机器学习 4 任何语言只要有语言资源, 皆有可能
机器翻译使用于哪些领域? 快速翻译 粗糙的快速低成本翻译 : 网站浏览? 科技翻译 与文学相反, 与技术打交道更多的领域? 受限文本 受限制的文本, 比如天气预报 译后编辑 机器翻译后结果需要继续加工, 而且有宽容度的场合, 比如跨语言信息检索
机器翻译使用于哪些领域? 机器翻译哪些地方比人好呢? 速度记忆力成本 不疲倦不抱怨 学得快? 安全?
那么哪些领域不适合机器翻译呢? 传统认知文学 艺术领域, 表达人类情感的文字真相 机器翻译只是计算机根据人确定的规则, 或者自己从大量资料中学习 ( 统计 ) 出来的 规则, 对文字进行转换 只要能够辨识, 就有可能执行机器翻译 改变过去认为不可能的领域, 正在逐渐改变
机器翻译的主要挑战 目前看来, 对机器翻译非常困难的文本类型 : 1. 文学性作品 : 散文 小说等 ; 2. 双关语 隐语等与语境强相关的内容 : 笑话等 ; 3. 隐藏 非浅层概念的情形 :go Greek; 4. 其他约束条件比较多的情形 : 歌词, 韵文, 诗歌等 微软的自动写对联 我们的认知 字 - 词 - 句 - 篇章 语法 - 语义 - 语用
能解决, 但是依然解决不好的挑战 获得正确的用词 : 1. 选择正确的词 ( 词根 ) 2. 正确的进行词形变化 3. 插入 多余的 词汇 让词汇排列成正确的顺序 1. 语言的分类 :SVO vs. SOV, 2. 语言自己固有的习惯, 语法 - 惯用法 3. 不同语言之间的差异性转换
正确的用词 - 正确的词根 1. 同一语言中, 一词多义 如 :bank, 打 2. 同一语言中, 一义多词 词义的微妙区别, 概念的内涵和外延 : 迅捷, 迅猛 适用文体 领域的差异性 : 警察条子 3. 不同语言之 简明汉英词典 不靠谱 不存在 : go Greek,lame duck, 风水 (fen sui) 概念之间的落差 : 狗 dog 语域 文体 风格 : when in Rome, do as the Romans do.
萨皮尔 沃尔夫假说 (Sapir Whorf Hypothesis) 语言因其自我成形 : 语言决定论 ; 一个人的思维完全由母语决定, 因为一个人只能根据其母语中编码设定的范畴和区别定义来认识世界 ; 人们的思想在很大程度上是由语言决定的 不同的语言不能表示同一个社会的现实 : 语言相对论 语言结构有无限的多样性, 因此一种语言系统中所编定的范畴类别和区分定义为该语言系统所独有, 与其他语言系统中所编定的范畴类别和区分定义不同
正确的用词 - 正确的词形 词形 :Inflection gender, number, case, tense, 欧洲语言, 从西往东 中文 : 非屈折语 中文 -> 英文 : 昨天, 我去买书了 中文 -> 英文 : 书买得挺好的啊
正确的用词 - 插入 多余的 词汇 冠词 :Determiners: 书 : a book, the book, the books 介词 :Prepositions: 六月份 : in June 代词 :Pronouns: 我举手 :I raised my hands. 连词,Conjunction: because: 因为, 所以
正确的用词 - 插入 多余的 词汇 Have you finished your homework? 你做完作业了吗? ( 省略和添加 ) President Barack Obama of US 美国总统奥巴马 ( 惯例省略, 对异种文化不习惯 ) Day after day he came to his work -- sweeping, scrubbing, cleaning. 扫地, 擦地板, 收拾房间
获得正确的句子 - 语序 SVO (Subject-Verb-Object) languages English, German, French, Mandarin I baked a pizza SOV Languages Japanese, Hindi VSO languages Irish, Classical Arabic, Tagalog
获得正确的句子 - 语序 VP + PP vs. PP + VP VP + AdvP vs. AdvP + VP Adj + N vs. N + Adj NP + PP vs. PP NP NP + S vs. S NP 普通话 : 你先走 粤语 : 你走先 床上 on the bed 窗外 outside the window jump on the bed 在床上跳
获得正确的句子 - 特定语言的规则, 惯用法 普通话 : 你先走 粤语 : 你走先 Why do you think that he came yesterday? 你为什么认为他昨天来了? 为什么你认为他昨天来了? 她把功课写完了 She finished her homework. 他把墙挖了一个洞 He dug a hole in the wall. 他把句子皮剥了 She peeled the orange s skin.
机器翻译的主要方法 人类的认知是不断深入的, 学科之间的借鉴很重要
语言学习和翻译过程 : 人类 PK 机器 学外语的通常过程 : 背单词 : 拼写和意义 学模版, 套用 反复练习 : 接受 : 读 听 产出 : 说 写 训练翻译机器 对词汇找翻译 套模版, 找规则 语法特点的处理 学到的规则越多越好?
语言学习和翻译过程 : 人类 PK 机器 译员翻译过程 : 1. 理解原文的句子 2. 澄清语义 3. 产出译文 机器翻译过程 1. 句法分析 语义分析 2. 词级别转换 短语级别转换 树结构级别转换 3. 按照特定语言进行后处理 4. 有真正的语义吗?
机器翻译需要哪些语言资源? 语料库, 最重要的语言资源 单语平衡语料库, 单语领域语料库 ( 目标语, 学习怎么产出 ) 平行语料库 ( 至少篇章对齐, 句对齐语料库使用最多 ) 可比语料库 ( 对于领域翻译工作而言, 很有用 ) 翻译词典 : 双语对应 / 对照的 叙词表,WordNet, FrameNet, HowNet
机器翻译需要哪些语言资源? 自然语言工具 :tokenizer, morph analyzer, parser 模版, 翻译规则 基于传统语言学的语法规则 基于样例的 基于统计提取的 语言资源越多, 机器翻译越有可能产出高质量结果
主要的机器翻译实现方法 1. 基于转换的方法,Transfer-based 乔姆斯基的形式化转换语法 2. 基于中间语言的方法,Interlingua 都向英语转化 ; 向人造的形式化语言转化 3. 基于实例的方法,Example-based (EBMT) 大致可以类比于翻译记忆, 要复杂很多 4. 基于统计的方法,Statistical MT (SMT) 翻译工作完全类比于密码破译工作 5. 复合方法,Hybrid approach 综合运用多种策略
机器翻译的三角架构 ( 版本一 ) Meaning (interlingua) Transfer-based Phrase-based SMT, EBMT Word Word-based SMT, EBMT Word
机器翻译的三角架构 ( 版本二 )
基于转换的机器翻译方法
基于转换的机器翻译方法 分析, 转换, 生成 形态分析, 句子分析, 生成句法树 根据规则转换句法树, 调序 翻译原文词汇, 形态转换 最后合并及调整词汇和句法结构, 得到最后结果 需要资源 :( 语言学家最重要!) 源语言句法分析器 翻译词典 ( 可能也会有附加规则 ) 转换规则集合
转换实例 我昨天买了书 1. 句法分析 S 我 - time-adv 昨天 - V 买 ( 了 ) - O 书 2. 转换 S V O adv 3. 词汇转换 I buy book yesterday. 4. 词形规则 I buy a book (books) yesterday. 5. 时态修正规则 I bought a book (books)yesterday.
基于转换的机器翻译方法 形态分析, 句法分析,Parsing 转换 语言学远未到能完整刻画人类语言的地步, 分析的正确率比较低 基于上下文无关文法, 但是真的无关吗? 每个层次都有规则, 规则有无冲突? 冲突后如何调整? 规则库初期增加,, 再增加, 按下葫芦起来瓢 语言规则库能否自动生成?
基于转换的机器翻译方法 词汇转换 : 基于辞典, 必定带来问题 规则写不胜写 语言生成 其他知识系统如何引入?
中间语言,Interlingua
中间语言,Interlingua 对于 n 种语言, 我们需要 n 种从这些语言向 中间转换的 MT 系统, 以及 n 种反向转换的 MT 系统就足够任意两种语言双向翻译了 ; 翻译系统的设计 : n 种语言的分析器,n 种生成器就可以
中间语言,Interlingua 中间语言 : 中间语言能够做到语言中立 ( 独立 ) 吗? 人造语言好? 英语好? 需要的资源 : 独立于语言的表达, 中间语言 非常复杂, 必须挖掘到语义层级的分析程序 非常复杂的生成程序
基于实例的机器翻译 -EBMT 基本想法 : 翻译句子的时候参考句对齐语料库中最相近的原有翻译句子来 处理 长尾真 Nagao (1981) 基于语料的训练 : w1 w2 w3 w4 -> w1 w2 w3 w4 w5 w6 w7 -> w5 w6 w7 w8 w9 -> w8 w9 翻译 : w1 w2 w6 w7 w9 -> w1 w2 w6 w7 w9 对齐语料库完全可以看做规则库!
基于实例的机器翻译 -EBMT 基于实例的机器翻译的类型 : 1. 浅层的词汇级别转换 2. 形态分析转换, 词性转换 3. 基于语法树的转换 ( 深层 ) EBMT 需要的资源 : 1. 句对齐的平行语料库 2. 双语词典 3. 词汇语义分析工具, 比如叙词表, 按类转换 ( 例子稀疏 ) 4. 句法分析工具 5. 部分依赖于规则和规则库
统计式机器翻译 -SMT 想法来源 : 二战中, 二战后, 密码破译技术 信息理论的发展, 噪声 - 信道理论 源语言, 密文 : 目标语言, 明文 : 破译基础, 语料库 所有规则全部用机器自动从语料库中学习得到 每当我解雇一个语言学家的时候, 机器翻译的水平就提高 一点
统计式机器翻译 -SMT 主要类型 : 1. 基于词汇的 2. 基于短语的 3. 基于层次短语的 4. 基于语法的 ( 串 - 树, 树 - 串, 树 - 树 )
统计式机器翻译 -SMT 好处 : 1. 非常容易建立, 甚至在语言资源充足的时候, 可以在几个小时内完成一种全新的机器翻译程序 2. 只要有足够语料, 就有足够好的翻译系统 弱点 : 1. 人类既有的知识不容易加入系统 2. 翻译过程不直观, 不易于理解和解释, 以及改进
复合方法 综合运用各种方法的长处, 克服其缺点 基于语法的转换方法 : 有直观的 人可以理解的语言学意义 基于实例的转换 : 可以使用 n-gram 语法进行改进,memory-based 基于统计的方法 : 数学基础好, 一切都可以自动化, 不受人的能力制约
复合方法 SMT + EBMT: 基于短语的 层次短语的统计机器翻译 EBMT + SMT: 自动添加语义资源库, 自动词族聚合 Transfer-based + SMT: 自动学习规则, 自动学习辞典, 规则添加统计概率信息 串行使用 : 一种方法的输出改进或补充另一种方法的输入 并行使用 : 结合各种方法, 对输出进行优选和融合
各种方法所需要的计算组件和语言资源 Transfer-based Interlingua EBMT SMT dictionary + + + Transfer rules + parser + + + (?) semantic analyzer + parallel data + + others Universal representation thesaurus
机器翻译嵌入计算机辅助翻译 软件 译员可用, 与普通人可用是有很大区别的
机器翻译系统可以帮助译员工作的方法 机器翻译预处理 事先把文章翻译一遍, 供译员快速理解 事先处理可以翻译的词汇 术语 本地化工程中, 模拟人的翻译结果预先改进程序 机器翻译结果作为参考译文 机器翻译结果作为人工翻译的制导 交互式机器翻译
交互式机器翻译的过程
在 SDL Trados 中使用机器翻译
在 SDL Trados 中使用机器翻译
在 SDL Trados 中使用机器翻译
在 SDL Trados 中使用机器翻译