1、背景
資訊快速膨脹,國際間的溝通日趨頻繁的今天,快速處理大量的外文資料,已是一種普遍的需求。因此,利用翻譯系統(tǒng)來協(xié)助人們快速獲取資訊,已成為必然的趨勢(shì)。在這種需求帶動(dòng)之下,用機(jī)器翻譯系統(tǒng)來協(xié)助人們快速翻譯,建檔,也就成為無法避免的趨勢(shì),計(jì)算機(jī)輔助翻譯應(yīng)運(yùn)而生。與此同時(shí),網(wǎng)絡(luò)的快速發(fā)展,提供了大量而豐富的雙語對(duì)照電子文獻(xiàn),這就為機(jī)器輔助翻譯提供了堅(jiān)實(shí)的語料基礎(chǔ)。
目前機(jī)器翻譯系統(tǒng)不能令人滿意的現(xiàn)狀也不容否認(rèn)。機(jī)器翻譯系統(tǒng)表現(xiàn)不佳的一個(gè)很重要的原因在于資源缺乏,無論采用何種機(jī)器翻譯方法,都需要大量大規(guī)模的知識(shí)資源。基于規(guī)則的機(jī)器翻譯系統(tǒng)需要大量的規(guī)則知識(shí)、詞典知識(shí)。基于統(tǒng)計(jì)的方法和基于實(shí)例的方法需要大規(guī)模的雙語對(duì)齊語料,一個(gè)好的機(jī)器翻譯系統(tǒng)所必備的資源往往需要經(jīng)年累月的積累,構(gòu)建雙語語料庫對(duì)計(jì)算機(jī)輔助翻譯是重要的。
2、雙語語料(Bitext)的基本概念
雙語語料(bitext) 是一種生成文檔,它包含給定文本的源語言和目標(biāo)語言之間的翻譯。雙語語料通過一系列被稱為“對(duì)齊工具”(alignment tool)或“雙語語料工具”(bitext tool)的軟件產(chǎn)生,這些工具可以自動(dòng)對(duì)齊同一種文本的源語言和被翻譯的語言。這種工具通常情況下可以逐句(sentence by sentence)匹配這兩種不同語言版本的文章。將這些雙語語料句子對(duì)存儲(chǔ)起來就會(huì)形成雙語語料數(shù)據(jù)庫或雙語文集,使用者可以通過搜索引擎來查閱數(shù)據(jù)庫提取需要的雙語語料。
3、TMX的基本概念
TMX (Translation Memory eXchange) 即翻譯存儲(chǔ)交換,是一種廠商中立的、開放式 XML 標(biāo)準(zhǔn),用于交換計(jì)算機(jī)輔助翻譯(CAT)和本地化工具創(chuàng)建的翻譯存儲(chǔ)(TM)數(shù)據(jù)。TMX 的目的是促進(jìn)工具和/或翻譯廠商之間的翻譯存儲(chǔ)數(shù)據(jù)交換,在這一過程中不損失或很少損失重要的數(shù)據(jù)。
4、本文工作
分析獲取網(wǎng)站對(duì)應(yīng)相同內(nèi)容的中文、英文網(wǎng)頁,根據(jù)HTML標(biāo)記、標(biāo)點(diǎn)符號(hào)等標(biāo)志信息確定英文和中文語句的對(duì)應(yīng)關(guān)系,組合出雙語語料,并按照TMX(Translation Memory Exchange)格式存放這些雙語語料。并且希望開發(fā)的軟件能支持用戶交互管理雙語語料(暫時(shí)沒做)。
效果圖
1)提取雙語語料

2)生成TMX

5、總結(jié)
原理就是利用.Net平臺(tái)的Markup Service實(shí)現(xiàn)把中英文網(wǎng)頁解析為DOM樹,這兩棵DOM具有相同的結(jié)構(gòu)。得到DOM樹后,然后遍歷兩個(gè)DOM樹,把相同的節(jié)點(diǎn)的text等屬性值匹配成雙語語料。 實(shí)現(xiàn)的原型系統(tǒng)可以提取中英文網(wǎng)頁中的雙語語料,但系統(tǒng)的容錯(cuò)能力差,要求中英文網(wǎng)頁必須就有相同的結(jié)構(gòu)(格式)。
posted on 2008-05-27 19:18
何克勤 閱讀(1398)
評(píng)論(3) 編輯 收藏