機(jī)器翻譯基本分類與工作原理
所在位置: 翻譯公司 > 新聞資訊 > 翻譯知識(shí) / 日期:2018-11-08 08:41:41 / 來源:網(wǎng)絡(luò)
1.基本類型的機(jī)器翻譯系統(tǒng):
現(xiàn)有的機(jī)器翻譯系統(tǒng)按照其基本工作原理,可以分為基于規(guī)則的(Rule-Based)機(jī)器翻譯,基于實(shí)例的(Example-Based)機(jī)器翻譯和統(tǒng)計(jì)型的(Statistical)機(jī)器翻譯這三種基本類型。
1.1.基于規(guī)則的機(jī)器翻譯系統(tǒng)
(Rule-Based Machine Translation, RBMT):
其基本工作原理基于一個(gè)假設(shè),即語言無限的句子可以由有限的規(guī)則推導(dǎo)出來。
基于這個(gè)假設(shè)的機(jī)器翻譯方法又可以分為三類:直接翻譯法(Direct Translation),中間語言法(Interlingual Approach),和轉(zhuǎn)換法(Transfer Approach)。
它們都需要用到大規(guī)模的雙語詞典,需要用到源語言推導(dǎo)規(guī)則,語言轉(zhuǎn)換規(guī)則和目標(biāo)語言生成規(guī)則;其不同點(diǎn)在于對(duì)語言進(jìn)行的分析深度不同。
如直譯法幾乎不需要進(jìn)行語言分析,中間語言法和轉(zhuǎn)換法需要對(duì)源語言和目標(biāo)語言進(jìn)行某種程度的語言分析。
1.1.1直接翻譯法(Direct Translation):
這種翻譯方法直接對(duì)源文字中的字詞進(jìn)行逐個(gè)翻譯,譯后文字順序按照原文順序進(jìn)行排列。
這是基于規(guī)則的機(jī)器翻譯的最早的工作方法。這種譯法簡(jiǎn)單、直觀,其弊端也是明顯的:由這種方法得到的翻譯結(jié)果質(zhì)量很不令人滿意。人們已經(jīng)逐漸不再使用這種直接翻譯法。
1.1.2中間語言法(Interlingual Approach):
這種翻譯方法對(duì)源語言文字進(jìn)行透徹的語言分析,將其轉(zhuǎn)化為一種中間語言表達(dá)形式,進(jìn)而由這種中間語言(Interlingua)進(jìn)一步生成和輸出符合目標(biāo)語言語法規(guī)則的文字。
這種中間語言是一種非自然語言,即不是任何國(guó)家地區(qū)人們使用的語言;而且它是一種沒有歧義的表達(dá)方式。此外,中間語言不是唯一的,不同的系統(tǒng)采用不同的中間語言。
任意一種語言經(jīng)由中間語言譯為其它任意一種語言,理論上這種中間語言法是最有效率的一種翻譯方式。
假定世界上總共有n種自然語言,使用中間語言法,只需2n個(gè)模塊就可以解決所有自然語言之間的互譯問題。
不使用中間語言,這些語言間的互譯則需要n(n-1)個(gè)模塊。當(dāng)n大于3時(shí),2n小于n(n-1)。我們知道,世界上的自然語言種類遠(yuǎn)大于3,因此2n個(gè)模塊的數(shù)量遠(yuǎn)小于n(n-1)個(gè)模塊的數(shù)量。
1.1.3轉(zhuǎn)換法(Transfer Approach):
這種翻譯方法先對(duì)源語言文字進(jìn)行一定程度的語言分析,去除語法的因素,生成源語言的中間表達(dá)方式,然后經(jīng)由轉(zhuǎn)換,生成目標(biāo)語言的中間表達(dá)方式,再由目標(biāo)語言的中間表達(dá)方式生成和輸出符合目標(biāo)語言語法規(guī)則的文字。
目前來說,轉(zhuǎn)換法的語言分析和實(shí)現(xiàn)方法在三種方法中最為復(fù)雜,得到的翻譯質(zhì)量在三種方法中也是最好的,是目前商業(yè)上最常使用的翻譯方法,在商業(yè)上最為成功。
在許多基于規(guī)則的機(jī)器翻譯系統(tǒng)中,由語言學(xué)家輔助編寫一系列關(guān)于源語言和目標(biāo)語言的語法規(guī)則,以及將源語言數(shù)據(jù)轉(zhuǎn)換為目標(biāo)語言數(shù)據(jù)的轉(zhuǎn)換規(guī)則。
然而使用全人工來制作這些規(guī)則非常昂貴、費(fèi)時(shí),而且易于出錯(cuò)。一個(gè)解決方法便是將以往的歷史翻譯結(jié)果作為資源庫,其中的源語言文字和它對(duì)應(yīng)的目標(biāo)語言譯文作為例子,從中嘗試提取出恰當(dāng)?shù)囊?guī)則。方法之一是對(duì)源文字和目標(biāo)語言譯文作人工標(biāo)記以示關(guān)聯(lián)。
Sato 和Nagao研發(fā)出一個(gè)系統(tǒng),用平面依賴關(guān)系樹來表示源語言文字和目標(biāo)語言文字。這種關(guān)系樹型數(shù)據(jù)結(jié)構(gòu)是計(jì)算機(jī)高效識(shí)別的一種形式。
通常用兩個(gè)層次代表源語言和目標(biāo)語言之間的關(guān)聯(lián):第一層次依賴于文字的表面形式(如字、詞順序),用于源語言的分析和目標(biāo)語言的生成;第二層次依賴于字詞間的語義關(guān)聯(lián),用于從源語言向目標(biāo)語言的轉(zhuǎn)換。這種機(jī)器翻譯系統(tǒng)在基于規(guī)則的機(jī)器翻譯基礎(chǔ)上,利用了實(shí)例庫的優(yōu)勢(shì)。
隨著大量歷史翻譯結(jié)果的積累,出現(xiàn)了基于實(shí)例的機(jī)器翻譯系統(tǒng),人們將這些已經(jīng)完成的翻譯結(jié)果作為資源庫,利用到機(jī)器翻譯中來。
1.2.基于實(shí)例的機(jī)器翻譯(Example-Based Machine Translation,EBMT):
其基本工作原理是基于類比(Analogy)的原則,從實(shí)例庫中匹配出與源文字片段最相似的文字片段,取出實(shí)例文字片段對(duì)應(yīng)的目標(biāo)語言翻譯結(jié)果,進(jìn)行適當(dāng)?shù)母脑欤罱K得出完整的翻譯結(jié)果。
基于實(shí)例的機(jī)器翻譯其核心思想最早由Mako Nagao 提出,他提出:人們?cè)诜g簡(jiǎn)單句子時(shí)并不作深層語言分析,而是翻譯。
首先把源句子分解成若干片段,然后將這些片段譯為目標(biāo)語言,每個(gè)片段的翻譯都是通過與例句做匹配以類比的原則得到的,最后將這些譯后句子組合成一個(gè)長(zhǎng)句子。
1.2.1.實(shí)例庫的構(gòu)成:實(shí)例庫也稱為語料庫(Corpus),由已經(jīng)完成的翻譯結(jié)果構(gòu)成。這些現(xiàn)成的翻譯結(jié)果也稱為語料,包括人工翻譯的結(jié)果和經(jīng)過人工編輯的機(jī)器翻譯結(jié)果。
語料庫由雙語對(duì)構(gòu)成,包括源語言文字片段和目標(biāo)語言譯文文字片段兩部分。這些翻譯結(jié)果要先經(jīng)過拆分和對(duì)齊處理,才可以成為語料庫中的可用語料。因此語料庫也稱為平行雙語語料庫(Parallel Corpus)。
拆分和對(duì)齊目前有多種形式,如句子水平的對(duì)齊和短語水平的對(duì)齊。對(duì)齊的文字片段大小的選擇,會(huì)直接影響匹配的效率和翻譯結(jié)果。
1.2.2.語料拆分的碎片化問題:
Nirenburg等(1993)指出,在基于實(shí)例的機(jī)器翻譯系統(tǒng)(EBMT) 中,實(shí)例語料存在一個(gè)文字片段長(zhǎng)度和相似度之間的一個(gè)矛盾。文字片段越長(zhǎng),越不易得到一個(gè)相似度高的匹配;文字片段越短,越可能得到一個(gè)大致匹配,但是得到低質(zhì)量翻譯結(jié)果的風(fēng)險(xiǎn)也越大。
比如由段落劃分邊界產(chǎn)生的重疊問題以及不恰當(dāng)?shù)膭澐謱?dǎo)致的翻譯質(zhì)量下降。直觀上似乎是選擇以句子為單位劃分得到的語料對(duì)比較好,有諸多優(yōu)勢(shì)如:句子的邊界劃分清楚,一些簡(jiǎn)單句子的結(jié)構(gòu)清晰。
然而在實(shí)際應(yīng)用中,以句子為單位并不是最恰當(dāng)?shù)姆绞健?shí)踐證明匹配和重組過程需要使用更加短小的片段。(當(dāng)然,這些研究結(jié)果是以歐美語系語言之間的翻譯研究結(jié)果為基礎(chǔ)的。)
1.2.3.實(shí)例庫定制:
實(shí)例語料的的范圍和質(zhì)量影響著基于實(shí)例的機(jī)器翻譯系統(tǒng)(EBMT)的翻譯質(zhì)量水平。在某特定領(lǐng)域獲取高質(zhì)量語料可以大大提高機(jī)器翻譯在此領(lǐng)域的翻譯質(zhì)量,稱為語料(實(shí)例)庫的定制。
1.3. 統(tǒng)計(jì)型機(jī)器翻譯系統(tǒng)(Statistical MT):
IBM公司的Brown在1990年首先將統(tǒng)計(jì)模型用于法-英機(jī)器翻譯。其基本思想是:把機(jī)器翻譯問題看成是一個(gè)噪聲信道問題,然后用信道模型來進(jìn)行解碼。翻譯過程被看作是一個(gè)解碼的過程,進(jìn)而變成尋求最優(yōu)翻譯結(jié)果的過程。
基于這種思想的機(jī)器翻譯重點(diǎn)是定義最合適的語言概率模型和翻譯概率模型,然后對(duì)語言模型和翻譯模型的概率參數(shù)進(jìn)行估計(jì)。
語言模型的參數(shù)估計(jì)需要大量的單語語料,翻譯模型的參數(shù)估計(jì)需要大量平行雙語語料。統(tǒng)計(jì)機(jī)器翻譯的質(zhì)量很大程度上取決于語言模型和翻譯模型的性能,此外,要找到最優(yōu)的譯文,還需要有好的搜索算法。
簡(jiǎn)單說,統(tǒng)計(jì)機(jī)器翻譯首先建立統(tǒng)計(jì)模型,然后使用實(shí)例庫中的實(shí)例對(duì)統(tǒng)計(jì)模型進(jìn)行訓(xùn)練,得到需要的語言模型和翻譯模型用于翻譯。
統(tǒng)計(jì)型機(jī)器翻譯,除了基于噪聲信道理論的系統(tǒng)以外,還有基于最大熵方法的系統(tǒng)。博格(A.L.Berger)在1996年 提出自然語言處理中最大熵方法(Maximum Entropy Approach)。
德國(guó)人奧赫 (Franz Joseph Och)等發(fā)現(xiàn), 把IBM公司的統(tǒng)計(jì)機(jī)器翻譯基本方程式中的翻譯模型轉(zhuǎn)變?yōu)榉聪蚍g模型,總體的翻譯正確率并沒有降低,由此,他們提出基于最大熵方法的機(jī)器翻譯模型。
統(tǒng)計(jì)型機(jī)器翻譯取得了一定的成績(jī),然而純統(tǒng)計(jì)設(shè)計(jì)卻不能解決所有困難。統(tǒng)計(jì)型的方法不考慮語言的語義、語法因素,單純用數(shù)學(xué)的方法來處理語言問題,有著巨大的局限性。
于是人們開始探索基于統(tǒng)計(jì)方法和其它翻譯方法的聯(lián)合應(yīng)用。如統(tǒng)計(jì)的和基于實(shí)例的機(jī)器翻譯系統(tǒng),統(tǒng)計(jì)的和基于規(guī)則的機(jī)器翻譯系統(tǒng),等等。
2. 綜合類型的機(jī)器翻譯系統(tǒng):
以上三個(gè)基本機(jī)器翻譯系統(tǒng)各有優(yōu)勢(shì)和長(zhǎng)處,同時(shí)又不可避免的具有某種缺陷和局限性。
如基于規(guī)則的機(jī)器翻譯系統(tǒng)(RBMT)可以準(zhǔn)確的描述語言學(xué)特征和規(guī)律,然而制定適用和完備的語言規(guī)則卻不是一件容易的事;
基于實(shí)例的機(jī)器翻譯系統(tǒng)(EBMT)可以充分利用已有的翻譯結(jié)果,但是實(shí)例庫的維護(hù)需要大量的人工和費(fèi)用;
統(tǒng)計(jì)型的機(jī)器翻譯(Statistical MT)可以緩解知識(shí)獲取的瓶頸問題,但是純數(shù)學(xué)的方法難于完全解決語言中的復(fù)雜問題。
為進(jìn)一步提高機(jī)器翻譯系統(tǒng)的翻譯水平,人們綜合以上幾個(gè)基本類型的優(yōu)勢(shì),又發(fā)明了混合型機(jī)器翻譯系統(tǒng)(Hybrid MT),多引擎機(jī)器翻譯系統(tǒng)(Multi-Engine MT)和提出了基于知識(shí)的機(jī)器翻譯系統(tǒng)(Knowledge-Based MT)的理論。
2.1混合型機(jī)器翻譯系統(tǒng)(Hybrid MT):
翻譯過程使用兩種或以上機(jī)器翻譯原理。比如:基于規(guī)則的機(jī)器翻譯方法的核心是構(gòu)造完備的、適應(yīng)性較強(qiáng)的規(guī)則系統(tǒng)。如何得到完備和適應(yīng)性強(qiáng)的規(guī)則系統(tǒng)成為研究焦點(diǎn)。
使用傳統(tǒng)的方法,語法規(guī)則庫的建立需要大量的人力、物力,大量的語言語法規(guī)則之間往往存在著不可避免的沖突,規(guī)則的完備性和適應(yīng)性不能得到保證。
隨著人們翻譯工作的進(jìn)行,生成大量已完成的翻譯結(jié)果,形成大量語料。人們想到了使用統(tǒng)計(jì)方法從現(xiàn)有語料中自動(dòng)提取我們需要的語言語法信息。從實(shí)例中抽取語言轉(zhuǎn)換規(guī)則,將基于實(shí)例的機(jī)器翻譯作為研究技術(shù)來建立語言規(guī)則基礎(chǔ),而不是單純用來進(jìn)行類比翻譯。
通過一個(gè)歸納的過程,從大量例句中提出抽象的規(guī)則 。這樣傳統(tǒng)的基于規(guī)則的機(jī)器翻譯方法發(fā)展成為以規(guī)則為基礎(chǔ),語料庫為輔助的機(jī)器翻譯方法。這種翻譯模型可以稱之為混合型機(jī)器翻譯系統(tǒng)(Hybrid MT)。
2.2多引擎機(jī)器翻譯系統(tǒng)(Multi-Engine MT):
這種機(jī)器翻譯系統(tǒng)的基本思想是幾架機(jī)器翻譯引擎同時(shí)進(jìn)行并行翻譯,并行翻譯的這幾架翻譯引擎分別基于不同的工作原理,給出多個(gè)翻譯結(jié)果,然后通過某種機(jī)制或算法篩選并生成最優(yōu)翻譯結(jié)果進(jìn)行輸出。
多引擎機(jī)器翻譯系統(tǒng)的一種工作方式如:接收到源文字后,先將文字轉(zhuǎn)化為若干文字片段,由多個(gè)機(jī)器翻譯引擎進(jìn)行并行翻譯,各個(gè)文字片段均得到多個(gè)翻譯結(jié)果, 通過某種機(jī)制選擇最優(yōu)的翻譯片段組成最優(yōu)組合,最后輸出最優(yōu)的翻譯結(jié)果。
或者是接收到源文字后,由多個(gè)機(jī)器翻譯引擎進(jìn)行并行翻譯,得到多個(gè)翻譯結(jié)果,然后對(duì)各個(gè)翻譯結(jié)果進(jìn)行字詞的比較,通過某種假設(shè)檢驗(yàn)和算法,選擇適當(dāng)?shù)淖衷~翻譯組成最優(yōu)翻譯結(jié)果輸出。
2.3. 基于知識(shí)的機(jī)器翻譯系統(tǒng)(Knowledge-Based MT):
在機(jī)器翻譯研究中,人們?cè)絹碓桨l(fā)現(xiàn)在翻譯過程中正確的理解、領(lǐng)會(huì)源語言的重要性。語言有著其復(fù)雜性。其中語言的模糊性是各種機(jī)器翻譯系統(tǒng)所面對(duì)的最頑固的難題。
語言的模糊性指語言文字同一表層結(jié)構(gòu)對(duì)應(yīng)著兩種或兩種以上的深層結(jié)構(gòu),簡(jiǎn)單說就是一種形式對(duì)應(yīng)著兩種或兩種以上的解釋,必須通過上下文內(nèi)容的提示和綜合知識(shí)背景、常識(shí)才可能做出正確的詮釋。
受人工智能,知識(shí)工程的發(fā)展影響,人們開始強(qiáng)調(diào)對(duì)源語言更為徹底的理解,提出不僅需要進(jìn)行深層語言分析,還需要進(jìn)行世界知識(shí)的積累和處理,建立知識(shí)庫,以助于理解語言。
通過對(duì)世界知識(shí)的了解,解決機(jī)器翻譯中遇到的語言模糊問題。為了從根本上徹底的解決機(jī)器翻譯所面對(duì)的語言的模糊性問題,人們提出了基于知識(shí)的機(jī)器翻譯系統(tǒng)。
2.3.1基于語義網(wǎng)的機(jī)器翻譯(Semantic Web based Machine Translation, SWMT):
是基于知識(shí)的機(jī)器翻譯系統(tǒng)的一種實(shí)現(xiàn)方式。語義網(wǎng)(Semantic Web),指通過某種技術(shù),將現(xiàn)有網(wǎng)絡(luò)上的知識(shí)內(nèi)容轉(zhuǎn)化為機(jī)器可以辨識(shí)的內(nèi)容,成為機(jī)器翻譯的世界知識(shí)庫。
這些理論基于Tim Berners-Lee提出的觀點(diǎn)知識(shí)一旦經(jīng)定義和形式化后,便可以通過任意方式訪問。萬維網(wǎng)最初的設(shè)計(jì)是希望它簡(jiǎn)單,去中心化并且盡可能的易于互動(dòng)。
網(wǎng)絡(luò)的發(fā)展證明它是一個(gè)巨大的成功。然而,網(wǎng)絡(luò)上面的信息都是面向人類大腦的。為了讓計(jì)算機(jī)也能夠接受和利用這些信息資源,在新的世紀(jì)一種擴(kuò)展和補(bǔ)充性質(zhì)的技術(shù)出現(xiàn)了, 稱為W3C,Semantic Web3 (三維語義網(wǎng))。
三維語義網(wǎng)絡(luò)的基礎(chǔ)技術(shù)是數(shù)據(jù)格式的資源描述構(gòu)架( ‘Resource Description Framework’,RDF), 它定義了一種結(jié)構(gòu),用一種自然的方式來描述計(jì)算機(jī)處理的巨大量的數(shù)據(jù)[8]。目前人們已經(jīng) 在嘗試將現(xiàn)有的機(jī)器翻譯系統(tǒng)整合入語義網(wǎng),以充分利用世界知識(shí)/專家知識(shí), 提高機(jī)器翻譯質(zhì)量。
3.語音翻譯(Speech Translation):語音翻譯是與文字翻譯相對(duì)應(yīng)的一種機(jī)器翻譯分類,與前面的分類有著不同。
但是有著廣泛的應(yīng)用,如日常交談、電話通話、會(huì)議講話等對(duì)語音交流內(nèi)容的自動(dòng)翻譯,在實(shí)際應(yīng)用中非常重要。
語音翻譯在翻譯之前增加了一個(gè)語言識(shí)別(Speech Recognition)過程,形成正確的文字內(nèi)容輸入,并且在翻譯過程完成后增加了一個(gè)語音合成(Speech Synthesis)過程, 形成一個(gè)正確的語音內(nèi)容輸出。其中語音識(shí)別技術(shù)和語音合成技術(shù)都有著專門研究,這里不再贅述。
現(xiàn)有的機(jī)器翻譯系統(tǒng)按照其基本工作原理,可以分為基于規(guī)則的(Rule-Based)機(jī)器翻譯,基于實(shí)例的(Example-Based)機(jī)器翻譯和統(tǒng)計(jì)型的(Statistical)機(jī)器翻譯這三種基本類型。
1.1.基于規(guī)則的機(jī)器翻譯系統(tǒng)
(Rule-Based Machine Translation, RBMT):
其基本工作原理基于一個(gè)假設(shè),即語言無限的句子可以由有限的規(guī)則推導(dǎo)出來。
基于這個(gè)假設(shè)的機(jī)器翻譯方法又可以分為三類:直接翻譯法(Direct Translation),中間語言法(Interlingual Approach),和轉(zhuǎn)換法(Transfer Approach)。
它們都需要用到大規(guī)模的雙語詞典,需要用到源語言推導(dǎo)規(guī)則,語言轉(zhuǎn)換規(guī)則和目標(biāo)語言生成規(guī)則;其不同點(diǎn)在于對(duì)語言進(jìn)行的分析深度不同。
如直譯法幾乎不需要進(jìn)行語言分析,中間語言法和轉(zhuǎn)換法需要對(duì)源語言和目標(biāo)語言進(jìn)行某種程度的語言分析。
1.1.1直接翻譯法(Direct Translation):
這種翻譯方法直接對(duì)源文字中的字詞進(jìn)行逐個(gè)翻譯,譯后文字順序按照原文順序進(jìn)行排列。
這是基于規(guī)則的機(jī)器翻譯的最早的工作方法。這種譯法簡(jiǎn)單、直觀,其弊端也是明顯的:由這種方法得到的翻譯結(jié)果質(zhì)量很不令人滿意。人們已經(jīng)逐漸不再使用這種直接翻譯法。
1.1.2中間語言法(Interlingual Approach):
這種翻譯方法對(duì)源語言文字進(jìn)行透徹的語言分析,將其轉(zhuǎn)化為一種中間語言表達(dá)形式,進(jìn)而由這種中間語言(Interlingua)進(jìn)一步生成和輸出符合目標(biāo)語言語法規(guī)則的文字。
這種中間語言是一種非自然語言,即不是任何國(guó)家地區(qū)人們使用的語言;而且它是一種沒有歧義的表達(dá)方式。此外,中間語言不是唯一的,不同的系統(tǒng)采用不同的中間語言。
任意一種語言經(jīng)由中間語言譯為其它任意一種語言,理論上這種中間語言法是最有效率的一種翻譯方式。
假定世界上總共有n種自然語言,使用中間語言法,只需2n個(gè)模塊就可以解決所有自然語言之間的互譯問題。
不使用中間語言,這些語言間的互譯則需要n(n-1)個(gè)模塊。當(dāng)n大于3時(shí),2n小于n(n-1)。我們知道,世界上的自然語言種類遠(yuǎn)大于3,因此2n個(gè)模塊的數(shù)量遠(yuǎn)小于n(n-1)個(gè)模塊的數(shù)量。
1.1.3轉(zhuǎn)換法(Transfer Approach):
這種翻譯方法先對(duì)源語言文字進(jìn)行一定程度的語言分析,去除語法的因素,生成源語言的中間表達(dá)方式,然后經(jīng)由轉(zhuǎn)換,生成目標(biāo)語言的中間表達(dá)方式,再由目標(biāo)語言的中間表達(dá)方式生成和輸出符合目標(biāo)語言語法規(guī)則的文字。
目前來說,轉(zhuǎn)換法的語言分析和實(shí)現(xiàn)方法在三種方法中最為復(fù)雜,得到的翻譯質(zhì)量在三種方法中也是最好的,是目前商業(yè)上最常使用的翻譯方法,在商業(yè)上最為成功。
在許多基于規(guī)則的機(jī)器翻譯系統(tǒng)中,由語言學(xué)家輔助編寫一系列關(guān)于源語言和目標(biāo)語言的語法規(guī)則,以及將源語言數(shù)據(jù)轉(zhuǎn)換為目標(biāo)語言數(shù)據(jù)的轉(zhuǎn)換規(guī)則。
然而使用全人工來制作這些規(guī)則非常昂貴、費(fèi)時(shí),而且易于出錯(cuò)。一個(gè)解決方法便是將以往的歷史翻譯結(jié)果作為資源庫,其中的源語言文字和它對(duì)應(yīng)的目標(biāo)語言譯文作為例子,從中嘗試提取出恰當(dāng)?shù)囊?guī)則。方法之一是對(duì)源文字和目標(biāo)語言譯文作人工標(biāo)記以示關(guān)聯(lián)。
Sato 和Nagao研發(fā)出一個(gè)系統(tǒng),用平面依賴關(guān)系樹來表示源語言文字和目標(biāo)語言文字。這種關(guān)系樹型數(shù)據(jù)結(jié)構(gòu)是計(jì)算機(jī)高效識(shí)別的一種形式。
通常用兩個(gè)層次代表源語言和目標(biāo)語言之間的關(guān)聯(lián):第一層次依賴于文字的表面形式(如字、詞順序),用于源語言的分析和目標(biāo)語言的生成;第二層次依賴于字詞間的語義關(guān)聯(lián),用于從源語言向目標(biāo)語言的轉(zhuǎn)換。這種機(jī)器翻譯系統(tǒng)在基于規(guī)則的機(jī)器翻譯基礎(chǔ)上,利用了實(shí)例庫的優(yōu)勢(shì)。
隨著大量歷史翻譯結(jié)果的積累,出現(xiàn)了基于實(shí)例的機(jī)器翻譯系統(tǒng),人們將這些已經(jīng)完成的翻譯結(jié)果作為資源庫,利用到機(jī)器翻譯中來。
1.2.基于實(shí)例的機(jī)器翻譯(Example-Based Machine Translation,EBMT):
其基本工作原理是基于類比(Analogy)的原則,從實(shí)例庫中匹配出與源文字片段最相似的文字片段,取出實(shí)例文字片段對(duì)應(yīng)的目標(biāo)語言翻譯結(jié)果,進(jìn)行適當(dāng)?shù)母脑欤罱K得出完整的翻譯結(jié)果。
基于實(shí)例的機(jī)器翻譯其核心思想最早由Mako Nagao 提出,他提出:人們?cè)诜g簡(jiǎn)單句子時(shí)并不作深層語言分析,而是翻譯。
首先把源句子分解成若干片段,然后將這些片段譯為目標(biāo)語言,每個(gè)片段的翻譯都是通過與例句做匹配以類比的原則得到的,最后將這些譯后句子組合成一個(gè)長(zhǎng)句子。
1.2.1.實(shí)例庫的構(gòu)成:實(shí)例庫也稱為語料庫(Corpus),由已經(jīng)完成的翻譯結(jié)果構(gòu)成。這些現(xiàn)成的翻譯結(jié)果也稱為語料,包括人工翻譯的結(jié)果和經(jīng)過人工編輯的機(jī)器翻譯結(jié)果。
語料庫由雙語對(duì)構(gòu)成,包括源語言文字片段和目標(biāo)語言譯文文字片段兩部分。這些翻譯結(jié)果要先經(jīng)過拆分和對(duì)齊處理,才可以成為語料庫中的可用語料。因此語料庫也稱為平行雙語語料庫(Parallel Corpus)。
拆分和對(duì)齊目前有多種形式,如句子水平的對(duì)齊和短語水平的對(duì)齊。對(duì)齊的文字片段大小的選擇,會(huì)直接影響匹配的效率和翻譯結(jié)果。
1.2.2.語料拆分的碎片化問題:
Nirenburg等(1993)指出,在基于實(shí)例的機(jī)器翻譯系統(tǒng)(EBMT) 中,實(shí)例語料存在一個(gè)文字片段長(zhǎng)度和相似度之間的一個(gè)矛盾。文字片段越長(zhǎng),越不易得到一個(gè)相似度高的匹配;文字片段越短,越可能得到一個(gè)大致匹配,但是得到低質(zhì)量翻譯結(jié)果的風(fēng)險(xiǎn)也越大。
比如由段落劃分邊界產(chǎn)生的重疊問題以及不恰當(dāng)?shù)膭澐謱?dǎo)致的翻譯質(zhì)量下降。直觀上似乎是選擇以句子為單位劃分得到的語料對(duì)比較好,有諸多優(yōu)勢(shì)如:句子的邊界劃分清楚,一些簡(jiǎn)單句子的結(jié)構(gòu)清晰。
然而在實(shí)際應(yīng)用中,以句子為單位并不是最恰當(dāng)?shù)姆绞健?shí)踐證明匹配和重組過程需要使用更加短小的片段。(當(dāng)然,這些研究結(jié)果是以歐美語系語言之間的翻譯研究結(jié)果為基礎(chǔ)的。)
1.2.3.實(shí)例庫定制:
實(shí)例語料的的范圍和質(zhì)量影響著基于實(shí)例的機(jī)器翻譯系統(tǒng)(EBMT)的翻譯質(zhì)量水平。在某特定領(lǐng)域獲取高質(zhì)量語料可以大大提高機(jī)器翻譯在此領(lǐng)域的翻譯質(zhì)量,稱為語料(實(shí)例)庫的定制。
1.3. 統(tǒng)計(jì)型機(jī)器翻譯系統(tǒng)(Statistical MT):
IBM公司的Brown在1990年首先將統(tǒng)計(jì)模型用于法-英機(jī)器翻譯。其基本思想是:把機(jī)器翻譯問題看成是一個(gè)噪聲信道問題,然后用信道模型來進(jìn)行解碼。翻譯過程被看作是一個(gè)解碼的過程,進(jìn)而變成尋求最優(yōu)翻譯結(jié)果的過程。
基于這種思想的機(jī)器翻譯重點(diǎn)是定義最合適的語言概率模型和翻譯概率模型,然后對(duì)語言模型和翻譯模型的概率參數(shù)進(jìn)行估計(jì)。
語言模型的參數(shù)估計(jì)需要大量的單語語料,翻譯模型的參數(shù)估計(jì)需要大量平行雙語語料。統(tǒng)計(jì)機(jī)器翻譯的質(zhì)量很大程度上取決于語言模型和翻譯模型的性能,此外,要找到最優(yōu)的譯文,還需要有好的搜索算法。
簡(jiǎn)單說,統(tǒng)計(jì)機(jī)器翻譯首先建立統(tǒng)計(jì)模型,然后使用實(shí)例庫中的實(shí)例對(duì)統(tǒng)計(jì)模型進(jìn)行訓(xùn)練,得到需要的語言模型和翻譯模型用于翻譯。
統(tǒng)計(jì)型機(jī)器翻譯,除了基于噪聲信道理論的系統(tǒng)以外,還有基于最大熵方法的系統(tǒng)。博格(A.L.Berger)在1996年 提出自然語言處理中最大熵方法(Maximum Entropy Approach)。
德國(guó)人奧赫 (Franz Joseph Och)等發(fā)現(xiàn), 把IBM公司的統(tǒng)計(jì)機(jī)器翻譯基本方程式中的翻譯模型轉(zhuǎn)變?yōu)榉聪蚍g模型,總體的翻譯正確率并沒有降低,由此,他們提出基于最大熵方法的機(jī)器翻譯模型。
統(tǒng)計(jì)型機(jī)器翻譯取得了一定的成績(jī),然而純統(tǒng)計(jì)設(shè)計(jì)卻不能解決所有困難。統(tǒng)計(jì)型的方法不考慮語言的語義、語法因素,單純用數(shù)學(xué)的方法來處理語言問題,有著巨大的局限性。
于是人們開始探索基于統(tǒng)計(jì)方法和其它翻譯方法的聯(lián)合應(yīng)用。如統(tǒng)計(jì)的和基于實(shí)例的機(jī)器翻譯系統(tǒng),統(tǒng)計(jì)的和基于規(guī)則的機(jī)器翻譯系統(tǒng),等等。
2. 綜合類型的機(jī)器翻譯系統(tǒng):
以上三個(gè)基本機(jī)器翻譯系統(tǒng)各有優(yōu)勢(shì)和長(zhǎng)處,同時(shí)又不可避免的具有某種缺陷和局限性。
如基于規(guī)則的機(jī)器翻譯系統(tǒng)(RBMT)可以準(zhǔn)確的描述語言學(xué)特征和規(guī)律,然而制定適用和完備的語言規(guī)則卻不是一件容易的事;
基于實(shí)例的機(jī)器翻譯系統(tǒng)(EBMT)可以充分利用已有的翻譯結(jié)果,但是實(shí)例庫的維護(hù)需要大量的人工和費(fèi)用;
統(tǒng)計(jì)型的機(jī)器翻譯(Statistical MT)可以緩解知識(shí)獲取的瓶頸問題,但是純數(shù)學(xué)的方法難于完全解決語言中的復(fù)雜問題。
為進(jìn)一步提高機(jī)器翻譯系統(tǒng)的翻譯水平,人們綜合以上幾個(gè)基本類型的優(yōu)勢(shì),又發(fā)明了混合型機(jī)器翻譯系統(tǒng)(Hybrid MT),多引擎機(jī)器翻譯系統(tǒng)(Multi-Engine MT)和提出了基于知識(shí)的機(jī)器翻譯系統(tǒng)(Knowledge-Based MT)的理論。
2.1混合型機(jī)器翻譯系統(tǒng)(Hybrid MT):
翻譯過程使用兩種或以上機(jī)器翻譯原理。比如:基于規(guī)則的機(jī)器翻譯方法的核心是構(gòu)造完備的、適應(yīng)性較強(qiáng)的規(guī)則系統(tǒng)。如何得到完備和適應(yīng)性強(qiáng)的規(guī)則系統(tǒng)成為研究焦點(diǎn)。
使用傳統(tǒng)的方法,語法規(guī)則庫的建立需要大量的人力、物力,大量的語言語法規(guī)則之間往往存在著不可避免的沖突,規(guī)則的完備性和適應(yīng)性不能得到保證。
隨著人們翻譯工作的進(jìn)行,生成大量已完成的翻譯結(jié)果,形成大量語料。人們想到了使用統(tǒng)計(jì)方法從現(xiàn)有語料中自動(dòng)提取我們需要的語言語法信息。從實(shí)例中抽取語言轉(zhuǎn)換規(guī)則,將基于實(shí)例的機(jī)器翻譯作為研究技術(shù)來建立語言規(guī)則基礎(chǔ),而不是單純用來進(jìn)行類比翻譯。
通過一個(gè)歸納的過程,從大量例句中提出抽象的規(guī)則 。這樣傳統(tǒng)的基于規(guī)則的機(jī)器翻譯方法發(fā)展成為以規(guī)則為基礎(chǔ),語料庫為輔助的機(jī)器翻譯方法。這種翻譯模型可以稱之為混合型機(jī)器翻譯系統(tǒng)(Hybrid MT)。
2.2多引擎機(jī)器翻譯系統(tǒng)(Multi-Engine MT):
這種機(jī)器翻譯系統(tǒng)的基本思想是幾架機(jī)器翻譯引擎同時(shí)進(jìn)行并行翻譯,并行翻譯的這幾架翻譯引擎分別基于不同的工作原理,給出多個(gè)翻譯結(jié)果,然后通過某種機(jī)制或算法篩選并生成最優(yōu)翻譯結(jié)果進(jìn)行輸出。
多引擎機(jī)器翻譯系統(tǒng)的一種工作方式如:接收到源文字后,先將文字轉(zhuǎn)化為若干文字片段,由多個(gè)機(jī)器翻譯引擎進(jìn)行并行翻譯,各個(gè)文字片段均得到多個(gè)翻譯結(jié)果, 通過某種機(jī)制選擇最優(yōu)的翻譯片段組成最優(yōu)組合,最后輸出最優(yōu)的翻譯結(jié)果。
或者是接收到源文字后,由多個(gè)機(jī)器翻譯引擎進(jìn)行并行翻譯,得到多個(gè)翻譯結(jié)果,然后對(duì)各個(gè)翻譯結(jié)果進(jìn)行字詞的比較,通過某種假設(shè)檢驗(yàn)和算法,選擇適當(dāng)?shù)淖衷~翻譯組成最優(yōu)翻譯結(jié)果輸出。
2.3. 基于知識(shí)的機(jī)器翻譯系統(tǒng)(Knowledge-Based MT):
在機(jī)器翻譯研究中,人們?cè)絹碓桨l(fā)現(xiàn)在翻譯過程中正確的理解、領(lǐng)會(huì)源語言的重要性。語言有著其復(fù)雜性。其中語言的模糊性是各種機(jī)器翻譯系統(tǒng)所面對(duì)的最頑固的難題。
語言的模糊性指語言文字同一表層結(jié)構(gòu)對(duì)應(yīng)著兩種或兩種以上的深層結(jié)構(gòu),簡(jiǎn)單說就是一種形式對(duì)應(yīng)著兩種或兩種以上的解釋,必須通過上下文內(nèi)容的提示和綜合知識(shí)背景、常識(shí)才可能做出正確的詮釋。
受人工智能,知識(shí)工程的發(fā)展影響,人們開始強(qiáng)調(diào)對(duì)源語言更為徹底的理解,提出不僅需要進(jìn)行深層語言分析,還需要進(jìn)行世界知識(shí)的積累和處理,建立知識(shí)庫,以助于理解語言。
通過對(duì)世界知識(shí)的了解,解決機(jī)器翻譯中遇到的語言模糊問題。為了從根本上徹底的解決機(jī)器翻譯所面對(duì)的語言的模糊性問題,人們提出了基于知識(shí)的機(jī)器翻譯系統(tǒng)。
2.3.1基于語義網(wǎng)的機(jī)器翻譯(Semantic Web based Machine Translation, SWMT):
是基于知識(shí)的機(jī)器翻譯系統(tǒng)的一種實(shí)現(xiàn)方式。語義網(wǎng)(Semantic Web),指通過某種技術(shù),將現(xiàn)有網(wǎng)絡(luò)上的知識(shí)內(nèi)容轉(zhuǎn)化為機(jī)器可以辨識(shí)的內(nèi)容,成為機(jī)器翻譯的世界知識(shí)庫。
這些理論基于Tim Berners-Lee提出的觀點(diǎn)知識(shí)一旦經(jīng)定義和形式化后,便可以通過任意方式訪問。萬維網(wǎng)最初的設(shè)計(jì)是希望它簡(jiǎn)單,去中心化并且盡可能的易于互動(dòng)。
網(wǎng)絡(luò)的發(fā)展證明它是一個(gè)巨大的成功。然而,網(wǎng)絡(luò)上面的信息都是面向人類大腦的。為了讓計(jì)算機(jī)也能夠接受和利用這些信息資源,在新的世紀(jì)一種擴(kuò)展和補(bǔ)充性質(zhì)的技術(shù)出現(xiàn)了, 稱為W3C,Semantic Web3 (三維語義網(wǎng))。
三維語義網(wǎng)絡(luò)的基礎(chǔ)技術(shù)是數(shù)據(jù)格式的資源描述構(gòu)架( ‘Resource Description Framework’,RDF), 它定義了一種結(jié)構(gòu),用一種自然的方式來描述計(jì)算機(jī)處理的巨大量的數(shù)據(jù)[8]。目前人們已經(jīng) 在嘗試將現(xiàn)有的機(jī)器翻譯系統(tǒng)整合入語義網(wǎng),以充分利用世界知識(shí)/專家知識(shí), 提高機(jī)器翻譯質(zhì)量。
3.語音翻譯(Speech Translation):語音翻譯是與文字翻譯相對(duì)應(yīng)的一種機(jī)器翻譯分類,與前面的分類有著不同。
但是有著廣泛的應(yīng)用,如日常交談、電話通話、會(huì)議講話等對(duì)語音交流內(nèi)容的自動(dòng)翻譯,在實(shí)際應(yīng)用中非常重要。
語音翻譯在翻譯之前增加了一個(gè)語言識(shí)別(Speech Recognition)過程,形成正確的文字內(nèi)容輸入,并且在翻譯過程完成后增加了一個(gè)語音合成(Speech Synthesis)過程, 形成一個(gè)正確的語音內(nèi)容輸出。其中語音識(shí)別技術(shù)和語音合成技術(shù)都有著專門研究,這里不再贅述。
相關(guān)閱讀 Relate
翻譯知識(shí)相關(guān)問答
問:如果翻譯的稿件只有幾百字,如何收費(fèi)?
答:對(duì)于不足一千字的稿件,目前有兩種收費(fèi)標(biāo)準(zhǔn): 1)不足一千字按一千字計(jì)算。 2)對(duì)于身份證、戶口本、駕駛證、營(yíng)業(yè)執(zhí)照、公證材料等特殊稿件按頁計(jì)費(fèi)。
問:請(qǐng)問貴司的筆譯范圍?
答:筆譯翻譯又稱人工筆頭翻譯, 既通過文字形式的翻譯轉(zhuǎn)換, 把源語言翻譯成目標(biāo)語言, 是當(dāng)今全球經(jīng)濟(jì)發(fā)展, 政治文化交流的主要方式, 筆譯通過文字展現(xiàn)方式, 使全世界上千種語言能夠互通有無, 每天都有數(shù)以億計(jì)的文字被翻譯或轉(zhuǎn)譯, 筆譯肩負(fù)著世界各國(guó)經(jīng)濟(jì)文化發(fā)展的重任, 是各國(guó)各民族的文化大使, 我們的筆譯領(lǐng)域涉及十大類專業(yè)領(lǐng)域和五百多種不同的分領(lǐng)域。
問:是否可以請(qǐng)高校教師、學(xué)者或?qū)W生翻譯?
答:絕對(duì)不能,風(fēng)險(xiǎn)自負(fù)。許多公司在尋找譯者時(shí),首先想到的是當(dāng)?shù)貙W(xué)?;虼髮W(xué)的外語院系。有時(shí),這種做法對(duì)于供內(nèi)部使用的翻譯可能有效,即,您只想了解文件大意,但對(duì)于正式的公司宣傳材料、手冊(cè)或者合同文檔而言,這樣做卻風(fēng)險(xiǎn)極大。外語教學(xué)需要有特殊的技能,但這些技能卻與翻譯一篇流利、優(yōu)美的文章所需的技能完全不同。讓學(xué)生來做翻譯看起來經(jīng)濟(jì)實(shí)惠,但風(fēng)險(xiǎn)更高,因?yàn)樗麄兒翢o實(shí)戰(zhàn)經(jīng)驗(yàn),翻譯出來的文件基本無法使用。
問:翻譯交稿時(shí)間周期為多長(zhǎng)?
答:翻譯交稿時(shí)間與您的文件大小以及復(fù)雜程度有關(guān)。每個(gè)專業(yè)譯者的正常翻譯速度為3000-4000中文字/天,對(duì)于加急的大型項(xiàng)目,我們將安排多名譯員進(jìn)行翻譯,由項(xiàng)目經(jīng)理將文件拆分成若干文件,分配給不同的譯員進(jìn)行翻譯,翻譯后由項(xiàng)目經(jīng)理進(jìn)行文件的合并,并經(jīng)統(tǒng)一術(shù)語、審校、質(zhì)控、排版等翻譯流程,最終交付給客戶。
問:提供一個(gè)網(wǎng)站的網(wǎng)址,能夠給出翻譯報(bào)價(jià)嗎?
答:對(duì)于網(wǎng)站翻譯,如果您能提供網(wǎng)站的FTP,或您從后臺(tái)將整個(gè)網(wǎng)站下載打包給我們,我們可在10分鐘內(nèi)給出精確報(bào)價(jià)。同時(shí),只要您提供原始網(wǎng)頁文件,我們會(huì)提供給您格式與原網(wǎng)頁完全一致的目標(biāo)語言版本,可以直接上線使用,省卻您的改版時(shí)間。
問:為什么標(biāo)點(diǎn)符號(hào)也要算翻譯字?jǐn)?shù)?
答:①根據(jù)中華人民共和國(guó)國(guó)家標(biāo)準(zhǔn)GB/T 19363.1-2003 對(duì)翻譯行業(yè)服務(wù)規(guī)范的要求,中文字?jǐn)?shù)統(tǒng)計(jì)是以不計(jì)空格字符數(shù)為計(jì)算單位的。標(biāo)點(diǎn)符號(hào)算翻譯字?jǐn)?shù)是統(tǒng)一的行業(yè)標(biāo)準(zhǔn)。
②標(biāo)點(diǎn)符號(hào)在不同的語種中,有不同的表達(dá)方式,例如中文的標(biāo)點(diǎn)符號(hào)大多是全角的,英文的無特殊設(shè)置都是半角的,而且如果一句話或一段內(nèi)容夾雜兩種不同的語言,標(biāo)點(diǎn)符號(hào)的規(guī)則就相對(duì)復(fù)雜,對(duì)于翻譯文件來說,標(biāo)點(diǎn)符號(hào)的部分也是很費(fèi)時(shí)。
③另外,標(biāo)點(diǎn)符號(hào)在句子中對(duì)句子語境等的限制因素,使得標(biāo)點(diǎn)對(duì)句子、對(duì)譯員翻譯判斷等起到一定的要求。所以,該部分也要計(jì)算在內(nèi)。
④可能我們平時(shí)不是很注重標(biāo)點(diǎn)符號(hào),其實(shí)在文字表達(dá)中,標(biāo)點(diǎn)符號(hào)的重要不亞于單字單詞,一個(gè)標(biāo)點(diǎn)符號(hào)可以改變?nèi)湓挼囊馑?,而我們的工作也是做到了這一點(diǎn),保證每個(gè)標(biāo)點(diǎn)符號(hào)的準(zhǔn)確,保證譯文表達(dá)的意思和原文一樣。
問:需要與你們公司什么人接洽翻譯業(yè)務(wù)呢?
答:我們公司采取專屬客服服務(wù)模式。為企業(yè)客戶配備專屬客服,一對(duì)一溝通具體翻譯需求,組建專屬譯員團(tuán)隊(duì)。
問:為何每家翻譯公司的報(bào)價(jià)不一樣?
答:大家都知道一分價(jià)格一分貨,在翻譯行業(yè)里更為突出,譯員的水平是劃分等級(jí)的。新開的翻譯公司或不具備翻譯資質(zhì)的公司為了搶占市場(chǎng),惡意攪亂,以次充好,低價(jià)吸引客戶。
問:為什么數(shù)字、字母也要算翻譯字?jǐn)?shù)?
答:根據(jù)中華人民共和國(guó)國(guó)家標(biāo)準(zhǔn)GB/T 19363.1-2003 對(duì)翻譯行業(yè)服務(wù)規(guī)范的要求,中文字?jǐn)?shù)統(tǒng)計(jì)是以不計(jì)空格字符數(shù)為計(jì)算單位的。而數(shù)字、字母也是包含在其中。而對(duì)翻譯公司來說,數(shù)字和字母也要算翻譯字?jǐn)?shù)的原因還包括以下兩個(gè)方面:
首先,我們的收費(fèi)都是根據(jù)國(guó)家頒布的翻譯服務(wù)規(guī)范來收取翻譯費(fèi)用,對(duì)待收費(fèi)我們都是統(tǒng)一對(duì)待的,其次,數(shù)字和字母也是文章中的一部分,特別是在一些商務(wù)文件中,數(shù)字就是文件的主題,所以也是一樣要收費(fèi)的。
另外,純數(shù)字字母需要核對(duì)、錄入,比翻譯一個(gè)詞語更麻煩,翻譯是大腦里面概念形成的,而純數(shù)字字母是要嚴(yán)謹(jǐn)?shù)暮藢?duì)、錄入才能實(shí)現(xiàn)的,這將會(huì)花費(fèi)更多的時(shí)間,所以我們會(huì)把數(shù)字和字母也算成字?jǐn)?shù)。
但是有一種情況除外,如審計(jì)報(bào)告里面那種數(shù)據(jù)很多而且又不需要我們翻譯可以直接保留的,這部分我們可以不計(jì)算在內(nèi)。
問:請(qǐng)問貴司每天的翻譯量是多少?
答:我們公司最高翻譯記錄為一天翻譯50萬字。原則上我們會(huì)在約定的時(shí)間內(nèi)完成,但是時(shí)間和質(zhì)量是成正比的,慢工才能出細(xì)活,我們建議在時(shí)間允許的情況下,盡量給譯員充足的翻譯時(shí)間,以便交付優(yōu)質(zhì)的譯文。
最新文章 Recent
熱點(diǎn)文章 Recent
- 山東話怎么說日常用語_山東 09-14
- 同聲傳譯收費(fèi)標(biāo)準(zhǔn)_同傳一天 02-27
- 我愛你用蒙古語怎么說? 11-24
- 俄羅斯百度“Яндекс” 12-17
- 中國(guó)菜的名稱英文翻譯大全_ 10-29
- 蒙古語你好怎么說 11-24
- 流浪地球英文介紹 11-27
- “ca.”是什么單詞的縮寫 09-11
- 維吾爾語32個(gè)字母表 12-09
- 阿拉伯語28個(gè)字母解析_2 11-07