質問応答の研究動向　【連載】自然言語処理の研究動向　第4回

エンジニアコラム

広い技術領域をカバーする当社の機械学習エンジニアが、
アカデミア発のAI＆機械学習技術を
紹介＆解説いたします。

質問応答の研究動向　
【連載】自然言語処理の研究動向　第4回

2025.9.17
株式会社Laboro.AI　リードMLリサーチャー　趙心怡
リードマーケター　熊谷勇一

概　要

質問応答の技術は、回答を文書からそのままコピーする単純なシステムから、大規模言語モデル（LLM）によって流暢な自然な回答を生成するRAG（Retrieval Augmented Generation、検索に基づく回答生成）へと進化してきました。現代の質問応答システムは、複数文書にわたる推論、対話形式の質問への対応、表やチャートなど構造化データの解釈といった、多岐にわたる能力が試されています。検索と生成のバランスを取りながら、流暢であるだけでなく信頼性・効率性にも優れ、さまざまな質問の種類や形式に適応できる質問応答システムの実現が追求されています。

連載第1回「自然言語処理の研究動向　全40トピックの俯瞰」はこちら。
連載第2回「ニューラル機械翻訳の研究動向」はこちら。
連載第3回「テキスト要約の研究動向」はこちら。

目　次

・質問応答とは
・主要な技術的進歩
・将来の展望と課題
　・いつ記憶し、いつ検索するか
　・マルチホップ推論の利点とコスト

質問応答とは

質問応答システムは、人間の言語と機械による理解との差異を埋め、利用可能な情報に基づいて、正確な答えを自動的に提供することを目指しています。データ量が指数関数的に増え続ける中、必要な情報を正確かつタイムリーに引き出すシステムへの需要はこれまでになく高まっています。キーワードのマッチングや表面的なテキスト類似度に頼る従来の情報検索手法ではもはや、十分ではありません。

こうした背景から、現代の質問応答システムはより洗練された手法を取り入れて進化し、文脈の理解、複数文書にまたがる推論、人々が自然に行う質問への適応といった高度なタスクが可能になっています。これらの変化は、機械が人間の言葉を理解し応答する方法における根本的な変革であり、学術界と産業界の両方で研究とイノベーションを促進する原動力となり続けています。

主要な技術的進歩

質問応答システムの進化における大きな進歩の一つは、まず関連文書を検索し、それから読解して回答を抽出するという2段階のアプローチを採用したことです。Chen et al.（2017年）は、高速なTF-IDFベース（※）の検索エンジンで関連しそうな文章を見つけ、その後ニューラルネットワークを使った読解モデルで回答箇所を特定するという手法を初めて導入しました。これにより、数百万件に及ぶWikipedia記事を効率的に検索・読解できることが示され、大規模かつドメインを限定しない質問応答を、商用レベルで実現可能であることが明らかになりました。

※文書中の単語について、出現頻度（TF: Term Frequency）と、その単語がコーパス全体でどれだけ珍しいか（IDF: Inverse Document Frequency）を掛け合わせた重みを計算し、その値に基づいて検索結果の関連度をスコア化したり、文書を数値ベクトルに変換したりする方式。

続いて2020年には、DPR（Dense Passage Retrieval）という飛躍的な研究成果が登場しました。2段階のアプローチは踏襲しつつ、単語の単純な一致に依拠した検索を高密度なベクトル表現による検索に置き換えることで、より効果的で、表記や文脈の違いに左右されない検索を可能にしました。同じく2020年には、Facebook（現Meta）がRAGを提案し、ニューラルネットワークを使った読解モデルをシーケンス間の生成モデルに置き換えました。

RAGでは、回答を文書から逐語的にコピーするのではなく、検索で得たエビデンスに基づいてモデル自身が回答を作り上げることができます。この変更により、裏付けとなる文書に基づきつつも、複数文からなる流暢で自然な対話となる回答の生成が可能となりました。しかしその代償として計算コストが増大し、出典の追跡も一段と難しくなりました。多くの質問応答システムは今日、回答の質と計算コストのバランスが取れたところに位置しています。簡単に裏付けられる事実に答える場合には、検索と読解の2段階からなる軽量な方式で十分対応できる在り方から、より詳しく説明的で一貫性のある回答を生み出すためにRAGをフルに統合した方式まで、さまざまなバリエーションが存在しているのです。

質問応答の発展を後押ししたもう一つの重要な原動力となったのは、多様なデータセットとベンチマークが継続的に登場してきたことです。これらはそれぞれ、質問応答システムに必要な異なる能力を測定するよう設計されました。2016年に公開されたSQuADは、単一の段落から正解部分を抽出するタスクの基準を打ち立てました。2018年に登場したSQuAD 2.0では、答えの存在しない質問が追加され、モデルが「答えはない」と判断する能力も求められるようになりました。WebQuestions（2013）、TriviaQA（2017）、Natural Questions（2019）といったデータセットは、Wikipediaやウェブ全体といった大規模コーパスから関連情報を検索して回答する、ドメインを限定しない質問応答の課題へと挑戦の幅を広げました。

さらに、HotpotQA（2018）やWikiHop（2018）では、複数の情報源から情報を取得して連鎖させて回答を導くマルチホップ推論を要件として課し、質問回答の精度を前進させました。対話指向のデータセットとしては、QuAC（2018）やCoQA（2019）が会話の文脈を取り入れ、モデルが会話の流れの中で、省略や指示語を正しく理解できるかどうかを評価しています。

さらに近年では、HybridQA（2020）、DocVQA（2020）、ChartQA（2022）、MMCoQA（2022）といったマルチモーダルなベンチマークが登場し、モデルにテキスト以外の表やチャート、画像、スキャン文書などを統合して推論する力を要件として課しています。これらの多様なベンチマークは総じて、現代の質問応答システムに必要な能力の位置付けを整理し、今後の研究が複雑で多様な課題へ広がっていく方向性を示しています。

将来の展望と課題

いつ記憶し、いつ検索するか

ユーザーは今や、ニッチな話題や速報性の高いニュースであっても、即座かつ信頼できる回答を質問応答システムに期待しています。しかしRAGのような手法で外部知識へアクセスできるようになった現在でも、質問応答システムがモデル内部に「記憶」された知識と外部から「検索」して得る知識のどちらに頼るべきかの判断は、依然として課題であり続けています。

Mallen et al.（2023）は、GPT-3（davinci-003、約1750億パラメータ）のような巨大モデルでさえ、オンライン上に数回しか現れない事実に関しては正確に対処できないことを示しました。一方で、より小規模なモデルに外部検索を組み合わせることで、こうした難問に対して巨大モデルを容易に凌駕する性能を発揮できることも示されてきました。Neeman et al.（2023）は、質問応答システムにパラメトリックな（パラメータとしてモデルの内部に保持されている）知識に基づく回答と、検索で得た文脈に基づく回答の二つを生成させる手法に取り組んでいます。また、Vu et al.（2024）は、世界の変化に伴いパラメトリックな知識がいかに脆弱になり得るかを浮き彫りにしました。

要するに、次世代の質問応答システムでは、自身のモデルの重みに内包された知識に頼るべき場合と、新鮮なエビデンスを外部から取得すべき場合とをリアルタイムで適切に見極め、両者をシームレスに統合することが求められているのです。

マルチホップ推論の利点とコスト

現実世界で出てくる多くの質問に対しては、複数の情報源にまたがって推論をして初めて一貫した回答が得られます。Trivedi et al.（2023）や Diao et al.（2024）の研究では、モデルが推論過程を声に出して考えるように進めたり、追加の質問を発したり、段階的に回答を洗練できたりするようにすることで、複雑なベンチマークにおいて大幅な性能向上を達成しています。

Caciularu et al.（2023）、Khalifa et al.（2023）、Li et al.（2024）などの研究では、各段階での検索プロセスをさらに洗練する試みがなされています。しかし、ホップ（推論の段階）を一つ追加するごとに新たな検索が必要となり、GPUの処理時間が増大してユーザーの待ち時間も長くなります。また、序盤の段階で生じた誤りが推論の流れ全体を誤った方向に導いてしまうこともあります。ユーザーが徒労を強いられることなく迅速で信頼性の高い回答を得るためには、マルチホップ推論の深さを維持しつつも、処理の遅延と誤答の発生率を最小限に抑える最適なバランスを見いだすことが、課題となっています。

幸いなことに、こうした技術革新は、研究段階から実際の製品・サービスへと驚くべき速さで移行しつつあります。質問応答の次なる革新の波は、モデル内部の知識と外部知識の信頼性を考慮した融合や、無駄がなく信頼性の高いマルチステップ検索にかかっています。そしてそれらを、実際にユーザーが使うシステムに求められる速度、透明性、コスト要件を満たすかたちで実現することが、今後の鍵となるでしょう。