【機械翻訳】が飛躍的に進歩した理由

翻訳外注ノウハウ

自動(機械)翻訳の歴史は数十年に及びますが、自動(機械)翻訳について目にするのは神話に登場する「バベルフィッシュダグラス・アダムズ著「銀河ヒッチハイクガイド」に登場する万能翻訳を可能にする魚、瞬間的な個人用翻訳装置)」が人間の翻訳者に取って代わる、というイメージばかりで、自動(機械)翻訳と人間の翻訳者との関係については、ほとんど触れられていないのが現状です。

長い間この二つの関係は、「(多くの翻訳者が面倒だと感じている)ひどい翻訳文のポストエディット」に議論が終始し、それ以上に複雑な内容で論じられることはありませんでした。

しかしニューラル機械翻訳の登場により、自動(機械)翻訳は単に翻訳者の面倒な作業を増やすだけのものではなくなり、今では、より速く、より正確にアウトプットをするための、翻訳者の良きパートナーとなっているのです。

※本コラムはLilt社のコラムを元にお届けしています

自動(機械)翻訳の何が重要なのか?

この、新しい翻訳技術という未来に飛び込む前に、そのの背景を整理しておきます。

ニューラル機械翻訳が登場する前、この分野の歴史には2つの主要なパラダイムがありました。1つはルールベース機械翻訳(RBMT)、もう1つはごく最近まで主流だったフレーズベース統計的機械翻訳(SMT)です。

ルールベース機械翻訳(RBMT)システムを構築する際、言語学者とコンピュータ科学者が力を合わせ、ある言語から別の言語へテキストを翻訳するための何千ものルールを書きました。

これは母国語しか読めない読者が、それまで読むことのできなかった言語で書かれたコンテンツの中から、重要な文書を大まかに把握するには十分なものでした。

しかし実際に良い翻訳を作るという目的において、この方法には明らかに欠点があります。時間がかかり、質の低い翻訳になってしまうという問題です。

一方、フレーズベース統計的機械翻訳(SMT)は「大量の対訳テキスト(2言語のペア)を見て、翻訳可能性の高い統計的モデルを作成」します。

フレーズベース統計的機械翻訳(SMT)の問題点は、システムに依存することです。例えば、一つの単語から同義語や派生語を連想することができないため、形態素解析を担当する補助的なシステムが必要になるということです。

また、流暢性を確保するために言語モデルが必要ですが、これはある単語の周辺に限定されます。そのため、フレーズベース統計的機械翻訳(SMT)は文法的な誤りを犯しやすく、学習データに含まれるフレーズと異なるフレーズに遭遇した場合、比較的柔軟性に欠けるのです。

最後にニューラル機械翻訳ですが、事実上すべてのニューラル機械翻訳(NMT)システムは、「attentional encoder-decoder(アテンション・エンコーダ・デコーダ)」と呼ばれるarchitecture(アーキテクチャ、構造)を採用しています。

このシステムには主に2つのニューラルネットワークがありますが、1つは文章を受け取り(エンコーダー、符号化する・記号化する)、それを一連の座標、つまり「ベクトル」に変換します。

そしてデコーダー(記号化されたものを解読する、復号する)のニューラルネットワークが、そのベクトルを別の言語のテキストに変換します。

この間にはデコーダーネットワークがエンコーダーの出力の重要な部分に集中できるよう、注意を促す仕組みがあります。

このエンコーディングの効果として、ニューラル機械翻訳(NMT)システムは単語やフレーズ間の類似性を学習し、空間的にそれらをグループ化しますが、フレーズベース統計的機械翻訳(SMT)システムは、翻訳に含まれる可能性の高い、あるいは低い、無関係な単語の束を見るだけでなのです。

興味深いことにこのアーキテクチャがGoogleの「ゼロショット翻訳(AIが翻訳の際に用いる「中間言語」のようなものを独自で内部に作り、まだ学習していないはずの言語の組み合わせでも一定の翻訳を行なう方法)」を可能にしているのです。

よく訓練されたニューラル機械翻訳(NMT)は、特定のソース(翻訳前の文章、原文)/ターゲット(翻訳後の文章)言語の組み合わせが訓練で使用されたかどうかに関係なく、同じ符号化ベクトルを知っている異なる言語にデコードすることができます。

デコーダが翻訳を進める際、それまでの文全体に基づいて単語を予測するため、フレーズベース統計的機械翻訳(SMT)とは異なり、首尾一貫した文全体が生成されることになります。

残念ながらこのことは、文の初期に現れた欠陥が雪だるま式に増えていき、翻訳結果の品質を低下させることを意味します。

また、ニューラル機械翻訳(NMT)モデルの中には、知らない単語(希少語や固有名詞など)に苦労するものもあります。

ニューラル機械翻訳(NMT)はその欠点にもかかわらず、自動(機械)翻訳(MT)の品質を大きく向上させるものですが、欠点があるからこそチャンスもあるのです。

翻訳者と自動(機械)翻訳がついに融合

自動(機械)翻訳(MT)の改良は通常、その用途(ポストエディット、自動的な翻訳など)の拡大を意味しますが、ニューラル機械翻訳(NMT)の真の勝者は翻訳者です。

特に翻訳者が自動(機械)翻訳(MT)の出力をポストエディットするのではなく、翻訳しながらリアルタイムで使用できる場合はそうです。

翻訳者がニューラル機械翻訳(NMT)エンジンと積極的に協力して翻訳を作成すると、互いに学び合い、エンジンは人間が考えもしなかったような翻訳を提案し、人間はモデレーター(仲介人)として、またそうすることでエンジンの教師として、機能することができるのです。

例えば、翻訳の過程で翻訳者が文頭を修正すると、システムが残りの部分を正しく翻訳する可能性が高まります。文頭を修正するだけで残りの部分が修正され、ミスの雪だるまが解けることもよくあることです。

一方、ニューラル機械翻訳(NMT)の特徴である「文法と一貫性の向上」は、正しい翻訳に到達したとき、翻訳者が文法の修正に費やす時間を減らし、自動(機械)翻訳(MT)の出力を上回り、ポストエディットをすべて省略できることを意味します。

翻訳者とニューラル機械翻訳(NMT)エンジンは、一緒に仕事をする機会があれば、文字通り互いの文章を仕上げることができるのです。

これは翻訳プロセスのスピードアップに加え、翻訳者にとってもやりがいのある経験となります。

自動(機械)翻訳が飛躍的に進歩した理由

これからどうなるのか?

安易な未来予測は危険ですが、ニューラル機械翻訳(NMT)の品質とアクセス性が向上し続ければ、CATツール翻訳メモリがすでにそうであるように、徐々に翻訳者にとって欠かせない存在になっていくでしょう。

現在行われている多くの研究は、より良いデータを得ることと、より少ないデータで済むシステムを構築することに関係しています。

この2つの分野によって自動(機械)翻訳(MT)の品質が向上し、翻訳者にとっての有用性が加速され続けることでしょう。

願わくばこの有用性がより多くの言語、特に学習に利用できるデータが少ない言語にも行き渡ることに期待したいと思います。

そうなればそれらの言語の翻訳者は、より多くのテキストを処理できるようになり、一般向けにもさらなる自動(機械)翻訳(MT)のトレーニング用にも、質の高いテキストの利用可能性が徐々に高まっていきます。

ニューラル機械翻訳(NMT)が正しく機能すれば、翻訳者の仕事を改善するだけでなく、翻訳業界全体が人類の”バベルフィッシュ”になるという目標に近づく可能性があります。

それはアプリでもイヤホンでもなく、人々のネットワークによって実現されるのです。

まとめ

以上、「【機械翻訳】が飛躍的に進歩した理由」でしたがいかがでしたでしょうか。

一般人には自動(機械)翻訳よりも「Google翻訳」のほうが馴染みのあるフレーズだと思いますが、Google翻訳以外にもDeepL(ディープエル)ほか現在ではさまざま自動(機械)翻訳(正確には機械翻訳エンジン)が開発、サービスとして提供されています。

それらを使うことによって、その精度(翻訳の正確性)は一旦脇に置いて、世界中のあらゆる言語情報(テキスト)のアクセスが著しく容易になったことは間違いありません。

自動(機械)翻訳は言語の壁を無くすためにも間違いなく有益かつ、意義のあるツールですが、今の段階で大切なのは、その特性やできること、できないことを正しく理解、見極めた上で適切な使い方をすることです。

自動(機械)翻訳とプロ翻訳者による人間翻訳、どちらが良くてどちらが悪いということではなく、翻訳の目的や翻訳に期待する成果によって、賢く使い分けることが今もっとも必要とされていることです。

当社は翻訳の目的や、翻訳する文書の特徴、性質などを正しく理解、見極め、相手国の文化的背景を念頭に、ホームぺージや契約書、取扱説明書、プレゼン資料、リリース、ゲーム、アプリその他あらゆるビジネスで必要なドキュメント、テキストの「プロ翻訳者による翻訳」を、英語を中心に世界120か国語で行ないます。

高い品質が求められる外国語対応や翻訳についてもしお困りでしたら、どうぞお気軽にお問い合わせください。

お問い合わせボタン