ニューラル機械翻訳の研究動向　【連載】自然言語処理の研究動向　第2回

エンジニアコラム

広い技術領域をカバーする当社の機械学習エンジニアが、
アカデミア発のAI＆機械学習技術を
紹介＆解説いたします。

ニューラル機械翻訳の研究動向　
【連載】自然言語処理の研究動向　第2回

2025.8.19
株式会社Laboro.AI　リードMLリサーチャー　趙心怡
リードマーケター　熊谷勇一

英語版（English version）はこちら。

概　要

2017年以降、ニューラル機械翻訳（Neural Machine Translation, NMT）においてTransformerアーキテクチャが主流となり、XLM（Cross-lingual Language Model）、mBART（Multilingual BART）、mT5（Multilingual T5）といった代表的なモデルの誕生を後押ししました。このエンコーダ・デコーダ構造は、対訳コーパスを効果的に活用する設計になっています。近年では、デコーダ専用の大規模言語モデル（Large Language Models, LLM）が登場し、非対訳データの活用や、精巧に設計されたプロンプトによる翻訳が可能になってきました。

しかし、低リソース言語や言語間距離の大きい言語ペアの翻訳は依然として困難です。そこでメタラーニング、few-shot学習、およびZero-shot翻訳といったアプローチが言語間の知識転移を促進し、問題を解決が図られています。また、評価手法も進化しており、COMET（※1）やBUFFET（※2）のような新しい評価指標が、BLEU（※3）のような従来の指標を補完しつつ、人間の判断とより高い整合性を持つ、信頼性の高い評価を可能にしています。

連載第1回「自然言語処理の研究動向　全40トピックの俯瞰」はこちら。

目　次

・ニューラル機械翻訳とは
・主要な技術的進歩
・将来の展望と課題
　・低リソース言語のニューラル機械翻訳
　・LLMベース翻訳の最適な方法

ニューラル機械翻訳とは

近年の自然言語処理分野の大きな進歩では、ニューラル機械翻訳が主要な役割を果たしてきました。ニューラル機械翻訳はディープラーニングを活用し、従来の統計的機械翻訳（Statistical Machine Translation, SMT）と比較して、翻訳の正確さと訳文の流暢さが大きく上回りました。

統計的機械翻訳は、フレーズ（句に限らず、連続した複数の単語のまとまり）の統計的に見いだされた対応関係や、確率モデルに依存していました。一方ニューラル機械翻訳は、翻訳を単一のエンドツーエンド（※4）の学習問題として扱います。その結果、文全体の意味をより的確に捉え、より流暢な訳文を生成することが可能になりました。

典型的なニューラル機械翻訳システムはseq2seq（sequence-to-sequence）モデル上に構築され、ソース（翻訳元）言語の入力系列をターゲット（翻訳先）言語の出力系列に直接対応関係を学習ます。これにより、より柔軟で高性能な翻訳システムの基盤が築かれました。

主要な技術的進歩

ニューラル機械翻訳の黎明期には再帰型ニューラルネットワーク（RNN）ベースのモデルが用いられていました。しかしそうしたモデルは、長い文や複雑な依存関係の処理が苦手でした。そのため、2017年に発表されたTransformerの登場は、ニューラル機械翻訳分野における大きな転機となりました。

TransformerはRNNにおける再帰構造を自己注意機構（文の中の各単語が、他のどの単語に注目すべきかを自動的に判断する仕組み）に置き換えます。これにより、長い系列の情報を効果的に捉え、より高速かつ高精度に翻訳できるようになりました。現在では、Transformerモデルがほぼすべての最新翻訳システムの中核となっており、さらにLLMの発展の基になりました。

Transformerベースのニューラル機械翻訳モデルの学習は通常、エンコーダ・デコーダ構造に沿って行われ、大規模な対訳データセットに依存します。これらのデータセットには、特定の言語ペアに特化したものから、多数の言語を含むものまでさまざまな種類があります。

2019年に発表されたXLM、2020年のmBART、2021年のmT5といった注目すべきモデルは、膨大な多言語データセットでTransformerモデルを学習することで、多言語翻訳の性能を大きく向上させました。これらの進展により、高品質な機械翻訳がより広範な言語において利用可能となっています。

翻訳品質の評価手法においても革新的な進歩が見られました。従来のBLEUでは、人間の読解において重要なニュアンスが見落とされがちです。2020年に提案されたCOMETのような新しいフレームワークでは、事前学習済みの多言語モデルを用いて翻訳の品質を評価するため、人間の判断との相関がより高くなっています。

こうした革新は、より賢い評価ツールを翻訳のワークフローに直接組み込むという大きな潮流があることを示しています。翻訳結果の文法的な正確さだけでなく、文脈的・文化的な適切さも確保することが、グローバル市場を対象とするビジネス用途では極めて重要です。

将来の展望と課題

低リソース言語のニューラル機械翻訳

今日の機械翻訳における最大の課題の一つは、学習用データが極めて限られた言語、すなわち「低リソース言語」の翻訳への対応です。主要な言語が数十年分の豊富なデータの恩恵を受けている一方で、多くの地域や話者数が限定されている言語は取り残されています。しかし近年の研究の進展により、リソースの豊富な言語から得られる知識を活用することで、こうした低リソース言語の翻訳性能を向上させられることが示されています。

例えば、Guら（2018年）はNMTに対してメタラーニングやlearning-to-learn（学習するための学習）の概念を導入し、低リソース言語への迅速な適応を目指しました。別のアプローチとして、Linら（2020年）が提案した手法では、異なる言語間で意味的に関連するフレーズをテキスト表現空間上で近づけることにより、翻訳性能の改善を図りました。さらに、Aharoniら（2019年）やXueら（2021年）の研究では、多様な言語を単一のモデルで同時に訓練することで、低リソース言語にも自然と恩恵が及ぶことが明らかになました。

これらの研究の進展は、低リソース言語のコミュニティーにより包括的で公平な翻訳システムをもたらすという有望な道筋を示しています。

LLMベース翻訳の最適な方法

LLMの台頭により、機械翻訳の新たな枠組みが生まれつつあります。対訳データで学習した従来のエンコーダ・デコーダ方式とは異なり、LLMベースの翻訳では通常、デコーダのみのモデルを用い、非常に大規模な非対訳データセットで学習されています。例えば、Vuら（2022年）の研究では、ラベルなしの多言語コーパスであってもLLMの学習に組み込むことで、学習時に直接その言語ペアの翻訳データを使っていなくても翻訳できる ero-shot翻訳の性能が大幅に向上することが示されています。

さらに、LLMは高品質な翻訳を生成するものの、その性能は与えるプロンプトの設計次第で大きく変化し得ることも分かってきました。例えば、Pengら（2023年）はtemperature（生成される文にどれだけ多様性や偶然性を持たせるかを調整するパラメータ）やタスクの明確な指定、ドメイン適応などの要素を再検証し、異なるプロンプト戦略がChatGPTの翻訳性能に与える影響を詳しく分析しています。

また、Agrawalら（2023年）やVilarら（2023年）の研究では、few-shot学習（モデルに少数の例だけを与えて新しいタスクを実行させる学習）の設定において適切な例を選ぶことの重要性が強調されており、質の低い例は翻訳品質を著しく低下させる可能性があることを示しています。

LLMは特に多言語やリソースが限られた環境で新たな可能性をもたらしますが、その活用にはトレードオフも伴います。高品質な翻訳を実現するには、慎重なプロンプト設計やデータ選定が不可欠です。さらにLLMが得意とする領域と、従来型のニューラル機械翻訳システムの方が依然として信頼できる領域を、明確に理解して使い分けることが重要です。

※1　Crosslingual Optimized Metric for Evaluation of Translation。機械翻訳の品質を評価するための自動評価指標であり、事前学習された多言語モデルを微調整して構築されたニューラル評価フレームワーク。

※2　Benchmark of Unified Format Few-shot Transfer Evaluation。多言語にまたがるfew-shot学習の成果を公平かつ一貫して評価するための標準化されたベンチマーク。

※3　Bilingual Evaluation Understudy。2002年に提案された、機械翻訳の品質を評価する指標。青のBLUEと文字順が違うが「ブルー」と発音される。

※4　統計的機械翻訳のように形態素解析など工程を複数に分けて別々に処理してつなげるのではなく、入出力を文単位で扱うこと。

連載第1回「自然言語処理の研究動向　全40トピックの俯瞰」はこちら。