
関係抽出
【連載】自然言語処理の研究動向 第7回
2025.10.31
株式会社Laboro.AI リードMLリサーチャー 趙 心怡
リードマーケター 熊谷勇一
概 要
関係抽出(Relation Extraction、RE)は、エンティティ(文中で特定の実体や固有の対象を示す単語・句)を認識するだけでなく、それらがどうつながるかを理解する手法であり、企業内の情報を統合する上で不可欠な技術です。REは近年の技術的進歩により、ルールベースの処理手順からTransformerに基づく生成モデルへと進化し、テキストを入力するだけで関係性を表すトリプレット(三つ組)が直接取り出せるようになりました。しかし固有表現認識(Named Entity Recognition、NER)と同様に、出力にばらつきがあるという課題があり、文書全体を対象とするREも依然として難易度が高いままです。
連載第1回「自然言語処理の研究動向 全40トピックの俯瞰」はこちら。
連載第2回「ニューラル機械翻訳の研究動向」はこちら。
連載第3回「テキスト要約の研究動向」はこちら。
連載第4回「質問応答」はこちら。
連載第5回「感情分析の研究動向」はこちら。
連載第6回「Few-Shot NER(少数ショット学習による固有表現認識)」はこちら。

目 次
・関係抽出とは
・主要な技術的進歩
・今後の展望と課題
・出力の一貫性
・文書全体における関係抽出
関係抽出とは
前回の第6回では少数ショット学習による固有表現認識を取り上げました。エンティティを認識することは、ビジネス領域や専門分野の知識を構造的に把握するための第一歩に過ぎません。情報同士のつながりを正確に捉えるには、単に何が言及されているかだけでなく、エンティティ同士がどのような関係にあるのかまで踏み込む必要があります。
REとは、文章中のエンティティ間の意味的な関係を特定するタスクです。NERによって検出されたエンティティと組み合わせることで、それらの関係を表す構造化された三つ組(トリプレット)を抽出できます。
例えば、「Laboro.AIは東京に拠点を置く企業です」という文からは、「Laboro.AIは」「企業」「です」や 「Laboro.AIは」「東京」「に拠点を置く」 といった関係を見出すことができます(※)。
※REでは三つ組は(subject, predicate, object)として表現されます。先ほどの例では三つ組は(Laboro.AI, は, 企業)、(Laboro.AI, 本社所在地, 東京)となります。
このような三つ組は、組織的、地理的、機能的、因果的など、エンティティ同士がどのようにつながっているかを表現します。企業内の応用においては、エンティティ抽出と関係抽出を組み合わせることで、分散したデータソースを結び付け、文書に潜む関連性を見いだし、ナレッジグラフを構築することが可能になります。これにより、断片化された情報が横断的に関連付けられ、効率的な情報アクセスや意思決定支援につなげることができます。
主要な技術的進歩
BERTなどの事前学習言語モデルの導入により、関係抽出の性能は大きく向上しました。BERTは文中の意味的な依存関係を捉えることで関係抽出を強化し、SpanBERT (2020年)はエンティティのスパン(連続した文字列の範囲)をより的確に捉えるための改良を加えました。また、Matching the Blanks (2019年)といった関係認識に特化した事前学習手法は、異なる文脈における関係の類似性を学習することで、モデルの精度向上に寄与しました。これらの基盤的な進歩により、非構造化テキストデータからであっても、高精度かつデータ量が増えても関係を抽出する土台が築かれました。
その上で、研究者たちは関係抽出をテキスト生成タスクとして再定式化し、単一のモデルでエンティティと関係を同時に抽出できるよう工夫し始めました。例えば、REBEL (2021年) やTANL (2021年)はエンドツーエンドで三つ組を生成するアプローチの先駆けであり、エンティティ抽出モジュールと関係抽出モジュールを分離せず一体化しました。
さらに後発のUIE (Unified Information Extraction(2022年))という仕組みでは、エンティティ、関係、イベントの抽出を単一の生成モデルで統合しています。このような生成型の手法が主流になったことにより、従来の処理手順方式が抱えていた制約が解消され、非構造化テキストから構造化された関係データを直接、大規模に生成することが可能となりました。
企業で扱う価値ある知識は、単一の文ではなく報告書やマニュアル、記録といった複数文書に分散して存在することが少なくありません。文書レベルの関係抽出(DocRE)は、同一文書内の複数の文にまたがる関係を特定することで、この課題に対処します。
まず、Yao et al. (2019年)によるDocREDベンチマークの提案がこの分野を切り拓き、以降、Huang et al. (2021年)、Xu et al.(2022年)、Tan et al. (2022年) などの研究によってモデル化手法や評価指標が洗練されてきました。2023年にはDelaunay et al.によるDocREの包括的な調査論文も発表され、文脈を超えた関係抽出の動向が整理されています。この研究の流れを踏まえ、Yasunaga et al. (2022年)は、文書間で情報を結び付ける「文書間関係」へと対象範囲を拡張しました。
これら一連の発展により、関係抽出の対象は文レベルからコーパス全体へと拡大し、企業内の膨大な文書群を統合して知識基盤を構築する実現性が高まってきました。
今後の展望と課題
出力の一貫性
関係抽出では、エンティティ抽出と同様に、一貫性の欠如による不安定さが課題です。表現のわずかな違いや無関係な文脈、エンティティの並び順の変化によって結果が変わり得るためです。特に大規模言語モデルを抽出器として用いた場合、この問題は顕著であり、Swarup et al. (2025年)の研究でも明らかになっています。
この課題については前回の第6回で取り上げ、解決に向けた有望な戦略を二つ紹介しました。一つは、生成と書式整形を分離するという、段階的な処理手順手法です (Li et al. (2024年))。もう一つは、出力を定められた構造に沿うよう、モデルを軽量にファインチューニングする方法です(Dagdelen et al.(2024年))。
これらのアプローチはREの場合にも有効であり、構造化された一貫性のある出力が求められるシナリオにおいて、LLM(大規模言語モデル)ベースの抽出システムの信頼性を向上させることができます。
文書全体における関係抽出
文書レベルの関係抽出 (DocRE) は、Zhao et al.(2023年)やZhang et al.(2025年) の調査でも特に困難な課題として挙げられています。長い文書内に手がかりが点在するため、同じエンティティの組が文書内の異なる箇所で別々のヒントを持つこともあり、システムはそれらを適切に見極めてつなぎ合わせる必要があるからです。FCDS (2024年)のような手法では、文書全体のエンティティとそのリンクのグラフを構築し、それを用いて関係を推定します。
一方で、一見有望に思える長大な文脈対応のLLMも、そのままでは十分ではありません。Li et al. (2023年)は、文書中の全コンテキストと関係ラベルを単一のプロンプトに詰め込む手法がDocREの規模では非現実的であることを示しました。代わりに、AutoRE (2024年)は入力を取捨選択し、モデルに対して関連する文脈と関係タイプのみを段階的に与えるという、実用的なアプローチを提示しています。
これらの新しいアイデアには将来性がありますが、現状ではまだ完全な解決策ではありません。例えば、AutoREの手法については、規模が大きくなっても適用し続けられるかという面で検証が必要です。それでもなお、近年の進歩は、何十ページにも及ぶ報告書や開示文書から関係を高精度で抽出し、断片化された資料群を統合して知識化する道筋を示しています。 企業においても、こうした技術の発展によって、膨大なテキストから有益な関係情報を安定して引き出し、より統合的な視点で意思決定に役立てることが期待できるでしょう。
連載第1回「自然言語処理の研究動向 全40トピックの俯瞰」はこちら。
連載第2回「ニューラル機械翻訳の研究動向」はこちら。
連載第3回「テキスト要約の研究動向」はこちら。
連載第4回「質問応答の研究動向」はこちら。
連載第5回「感情分析の研究動向」はこちら。
連載第6回「Few-Shot NER(少数ショット学習による固有表現認識)」はこちら。
執筆者
エンジニアリング部 リードMLリサーチャー 趙 心怡
自然言語処理、機械学習、ナレッジグラフを中心とした研究に従事。これまで複数のオープンソースのデータセットとモデルの構築に貢献してきた。最近の研究ではLLMの実社会への応用を探求し、学術研究と実際のユースケースの橋渡しに情熱を注いでいる。
訳者
マーケティング部 リードマーケター 熊谷勇一
中央大学文学部卒業、北陸先端科学技術大学院大学情報科学研究科博士前期課程修了。日本経済新聞社などメディア企業で16年、雑誌、書籍、ウェブサイト、動画などの編集・執筆を手掛けた後、2022年からLaboro.AIに参画。
