
AIエージェントはなぜ今注目されているのか。発展の背景と基礎を詳しく解説
2025.7.10
株式会社Laboro.AI リード機械学習エンジニア 川崎奏宜
概 要
前回の記事(AIエージェントの定義。2025年の最重要AI用語の概念を整理)では、LLMの登場からAIエージェント(ユーザーから与えられた指示に対し、自律的に問題解決やタスク実行を行うシステム)までの技術進歩やAIエージェントの定義について掘り下げました。今回はその続編として、AIエージェントの「基礎」に焦点を定め、AIエージェントが今これほどまでに注目を集めている理由と、その背景にある技術的進化や内部構造について解説します。AIエージェントの基本的な仕組みや今後の可能性について体系的に理解を深める一助となれば幸いです。
Laboro.AIの「AIエージェント領域のカスタムAI開発」はこちら
目 次
・なぜ今AIエージェントが注目されているのか
・LLMの推論能力の向上
・マルチモーダル化
・ツール利用の高度化
・AIエージェントを構成する四つの要素
・Profile(個性)
・Memory(記憶)
・Planning(計画)
・Action(行動)
・これら4要素の連携
・AIエージェント開発の進化:MCP(Model Context Protocol)の登場
・MCPの概要
・従来手法との比較と開発への影響
・MCPの活用例
・AIエージェントの現在地と今後の展望
・現在のAIエージェントの限界や課題
・課題解決の方向性としてのマルチエージェント構成
・まとめ
なぜ今AIエージェントが注目されているのか
AIエージェントが現在注目を集めている背景には、LLMの推論能力向上、マルチモーダル化、ツール利用の高度化という三つの技術的要因が挙げられます。
LLMの推論能力の向上
AIエージェントの頭脳に当たるのが、LLM(Large Language Model、大規模言語モデル)です。近年のLLMの推論能力や指示追従能力は年々向上しています。与えられた情報から論理的に物事を考え、結論を導き出す能力が格段に進化しています。こうした能力向上の背景には、以下の技術的進歩が背景にあります。
Chain-of-Thought(思考の連鎖)技術の発展:LLMが思考過程を明示的に示しながら回答を導き出す技術です。従来はプロンプトで対応していましたが、現在ではモデルの学習プロセスに組み込み済みです。
Instruction Tuningの導入:指示プロンプトとそれに対応するアウトプットのラベル付データセットでLLMをファインチューニングする手法で、モデルが指示追従能力を獲得します。GPT-4で採用され、その後多くのモデルに広まりました。
強化学習手法の高度化:RLHF(Reinforcement Learning from Human Feedback、人間のフィードバックを活用した強化学習)により、人間の好みに沿った応答を生成できるように最適化されています。最近では、効率的な学習手法としてDPO(Direct Preference Optimization)が広く使われています。
LLMの推論力がどれほど進化したかを客観的に測る指標として、MMLU-Pro(Massive Multitask Language Understanding Professional)というベンチマークが用いられています。MMLU-Proは、数学、歴史、科学などの多様なタスクに対するモデルの推論能力を評価するもので、GPT-4-Turboでは64%、GPT-4oでは78%、GPT-o1では89%と、年々大きく向上しています。
このようにLLMの能力が飛躍したことで、ユーザーの意図をより深く理解し、タスクを適切に細分化して実行したり、状況に応じ最適なツールを選択したりできるようになりました。つまり、AIエージェントとして必要な基盤が着実に整ってきたのです。
マルチモーダル化
LLMの登場当初はテキスト入力に対しテキスト出力するだけの「ユニモーダル」モデルでした。 別の言い方をすれば、一種類のモダリティ(テキスト情報)のみを扱っていたのです。しかし近年では、テキストに加えて画像や音声など複数のモダリティを統合的に処理できる「マルチモーダル」なLLMが登場し、AI活用の幅は飛躍的に広がりました。この進化によって、LLMは以下のような新たな能力を獲得しています。
画像理解と解析:グラフの読み取り、文書や表の内容解釈、製品の外観検査など、視覚情報をもとに判断が必要な場面でもLLMを活用できるようになりました。
音声理解とコミュニケーション:従来は、音声を扱う場合は音声認識技術を用いてテキストに変換し、その後LLMで処理するという2段階のプロセスが必要でした。しかし、最近のLLMは音声データを直接扱い、音声入力をそのまま理解し、言葉のニュアンスやトーンを踏まえた対応が可能になりました。これにより、LLMはユーザーとの自然な会話を実現できるようになりました。
クロスモーダル処理:マルチモーダルモデルは、テキスト・音声・画像といった異なるモダリティ間での情報変換や生成がシームレスに行えるようになりました。例えば、画像を見て音声で説明する、音声指示に基づいて画像を生成するといった、モダリティをまたぐ複合タスクも実現しています。

ツール利用の高度化
AIエージェントがテキスト生成の枠を超えて実際のタスクをこなすには、LLMという頭脳だけでなく、その手足となるツールが不可欠です。最近のLLMには、外部ツールと連携するための機能(FunctionCalling / ToolUse)が搭載されており、外部のAPIやデータベースなどと連携できるようになっています。
ツール利用によって、AIエージェントは以下の能力を獲得します。
外部データの取得:外部のAPIを利用して、リアルタイムの情報を取得したり、特定のデータベースの情報を参照したりすることができます。これにより、LLMが学習済みの知識だけではなく、外部データを活用した応答が可能になります。例えば、天気予報や株価情報などのリアルタイムな情報を取得したり、企業内のデータベースから特定の情報を取得して、その内容を踏まえた応答したりすることができます。
外部ツールの実行:LLMは、テキストを介して外部ツールを実行することができ、単なるテキスト応答にとどまらず、実際のアクションを起こすことができます。例えば、メールの送信、コード実行、APIを介したWebサービスの操作などの動作を行うことが可能です。
こうしたツール連携が発展する中で、Anthropic社はMCP(Model Context Protocol)というツール呼び出しの共通規格を2024年に提唱しました。MCPはツール呼び出し方法を標準化し、異なるモデルやツール間の依存関係をなくして互換性を高めることを目的としています。詳しくは後で改めて解説します。
AIエージェントを構成する四つの要素とは
AIエージェントが自律的にタスクを遂行するためには、人間がタスクに取り組む場合と同様に、いくつかの基本的な機能要素が必要です。AIエージェントに関するサーベイ論文 “A Survey on Large Language Model based Autonomous Agents” では、AIエージェントには四つの構成要素があるとされています。以下では、同論文で定義されている四つのフレームワークを基に、それぞれの構成要素については、最新の技術動向を踏まえた個人の見解を交えながら解説します。
Profile(個性)
Profile(個性)は、AIエージェントのキャラクターや振る舞いを定義する要素で、LLMのシステムプロンプトにより設定されます。論文では、Profileの生成方法に焦点が定められていますが、以下ではシステムプロンプトで何を定義すべきなのかについて説明します。例えば、以下のような振る舞いを設定します。
目的と役割:AIエージェントがどのような問題を解決し、どんな価値提供をするのかを定義します。
専門知識や能力:AIエージェントが得意とする分野や保有する知識、実行できるタスクの範囲を定義します。
制約:AIエージェントができないことや回答を控えるべきこと、その他、考慮すべき事項などを定義します。
コミュニケーションスタイル:AIエージェントの話し方や応答の長さ、使用言語、口調などを定義します。
Memory(記憶)
Memory(記憶)は、AIエージェントが過去の対話や行動履歴を蓄積し、現在の意思決定や行動に役立てるための要素です。人間が経験を記憶して次の行動に生かすように、AIエージェントも記憶によって文脈を理解し、より一貫性のある行動を取ることができます。またMemoryは、その保持期間や性質によって、短期記憶と長期記憶に大別されます。
短期記憶(Short-term Memory):現在の対話やタスク実行中の文脈情報を保持します。主にLLMのコンテキストウィンドウ内で管理され、タスク終了後に消去される一時的な記憶です。
長期記憶(Long-term Memory):過去の対話内容、タスク実行結果、ユーザーの好みなどを永続的に保持し、必要に応じて呼び出して活用します。実装方法はさまざまで、対話の要約から重要情報を抽出する方法や、外部データベースに保存・参照する方法などが取られます。
Planning(計画)
Planning(計画)は、与えられたタスクを遂行するために必要なステップを構想し、具体的な行動計画を立てる要素です。人間が複雑なタスクをこなす際、まず全体の流れを整理し次に具体的アクションを決めるように、AIエージェントも事前に計画を立てることでタスクを効率良く遂行できます。
また、計画の進め方において、タスク実行後にフィードバックを受け取るかどうかで「フィードバックなし」と「フィードバックあり」の2種類に分類されます。
フィードバックなしの計画:AIエージェントは事前に立てた計画に従ってタスクを実行します。タスク終了後にいかなるフィードバックも受け取らない方式です。単一のフローでタスクを実行する方法や、並列なフローでタスクを実行する方法など、さまざまな手法が提案されています。
フィードバックありの計画:事前に立てた計画に沿ってタスクを実行し、タスク完了後にフィードバックを受け取って次に生かす方式です。フィードバックの受け取り方にはいくつかあり、論文では以下の3種類が挙げられています。
・環境によるフィードバック
タスクを実行する環境から得られるフィードバックです。例えばタスクが成功したかどうか、プログラムの実行結果やエラーメッセージなど、システム側から提供される情報が該当します。
・人間によるフィードバック
ユーザーや評価者など人間から直接提供されるフィードバックです。人間の価値観や好みに合わせるのに役立ちますが、実行コストが高くなる可能性があります。
・モデルによるフィードバック
別のLLMからのフィードバックを受け取る方法です。現在、最も一般的に用いられている手法です。
近年では、フィードバックのプロセス自体をPlanningから切り離し、 「Reflection(振り返り)」 という独立要素として捉える傾向が強まっています。
Action(行動)
Action(行動)は、AIエージェントが計画に従ってタスクを実行する要素です。人間がタスクを行うとき「何のために行動し(目的)、どう実行し(方法)、結果としてどうだったか」を考えるように、AIエージェントの行動も以下の四つの観点から捉えることができます。
目標(Action Goal):「何を達成したいか」というAIエージェントの目標です。
生成(Action Production):「アクションをどのように生み出すか」という行動生成の過程を指します。ユーザーが事前に定義した行動や、会話の文脈から動的に生成される行動など、さまざまな形態があります。
行動空間(Action Space):「利用可能な能力・ツールは何か」という、AIエージェントが使える手段やツールの範囲を指します。
影響(Action Impact):「アクションの結果がどのように影響するか」という、AIエージェントの行動がもたらす結果・影響範囲を指します。
ちなみに、この論文発表当初はAction要素の実行手段は主にLLMの入出力に限られていました。 しかし近年、MCP(Model Context Protocol)の登場によるツール連携の発展に伴い、「Action(行動)=ツールの利用」という捉え方が一般的になっています。
この論文が発表された当初、Action(行動)要素は主にLLMの入出力を通じて実行されるものでした。しかし近年、MCP(Model Context Protocol)の出現によりツール利用の高度化が進み、「Action(行動)=ツール利用」という考え方が一般的になってきています。
これら4要素の連携
AIエージェントは、Profile(個性)、Memory(記憶)、Planning(計画)、Action(行動)の4要素が相互に連携して機能します。各要素が相互作用することで、AIエージェント全体の能力が向上するのです。
例として、AIエージェントが「特定の情報を調査してレポートを作成する」というタスクを遂行させる場合を考えてみましょう。
1. Profile:そのタスク(調査・レポート作成)に特化した専門知識や、レポートの形式・スタイルを設定します。
2. Memory:調査結果やレポート作成の履歴を記録し、次回以降の同種タスクで再利用できるように保持します。
3. Planning:調査・レポート作成の進め方を計画します。どの情報源からデータを収集し、どの順序・手順で調査を進めるかを決定します。
4. Action:立てた計画に沿って調査を実行し、必要な情報を集め、調査結果をもとにレポートを作成します。必要に応じて外部ツールも活用し、情報収集や分析を自動化します。

AIエージェント開発の進化:MCP(Model Context Protocol)の登場
AIエージェントが能力を最大限に発揮するためには、LLMの推論能力だけではなく、LLMが持たない知識を補完したり、外部のツールを実行してLLMの推論能力を拡張したりすることが不可欠です。実際、RAG(Retrieval-Augmented Generation、検索に基づく回答生成)を筆頭として、LLMの推論能力を拡張するさまざまな手法が提案されてきました。しかし、それらの手法は、LLMと外部知識・外部ツールとの連携が複雑になりやすく、開発のボトルネックとなるケースも少なくありませんでした。そこで、これらの課題を解決してAIエージェント開発の標準化・効率化を図るアプローチとして登場したのが MCP(Model Context Protocol) です。
MCPの概要
MCPは、Anthropicが2024年11月に発表したツール呼び出しの標準化を定義したオープンなプロトコル(規約)です。異なるモデルや異なるツール間の依存関係を取り除き、AIエージェントを外部ツールにシームレスに接続することができるようになります。MCPは、以下の三つの要素で構成されています。
MCPホスト:ユーザーが直接操作するアプリケーション(Claude DesktopやVSCodeなど)です。
MCPクライアント:MCPホスト内で動作し、指定されたMCPサーバーと通信するコンポーネントです。
MCPサーバー:標準化されたプロトコル(Model Context Protocol)を介して入力を受け取り、内部で所定のデータソースを参照したり外部ツールを実行したりするサーバーです。

MCPはよく「USB-C」に例えられます。 USB-Cがデバイスの種類を問わず同じコネクタで接続できるように、MCPもモデルやツールの違いを意識せずに接続できる共通プロトコルを提供します。
MCPは当初、Anthropicが発表したものでしたが、その汎用性の高さから、現在ではOpenAIやMicrosoftといった主要企業のAIエージェントフレームワークにも統合されていて、業界のデファクトスタンダードになりつつあります。
従来手法との比較と開発への影響
従来のAIエージェント開発では、LLMと外部ツールの連携をツールごとに個別実装する必要がありました。ツールごとにインターフェースやデータ形式が異なるため、開発者は各ツールに合わせた実装を行わなければならなかったのです。この課題は「M×N問題」と呼ばれ、モデルがM種類、ツールがN種類あるとM×N通りの組み合わせを考慮して開発する必要がある、という意味です。
一方、MCPは共通プロトコルを提供することで、モデル間・ツール間の依存を取り除きました。開発者はMCPに準拠したインターフェースを一度実装するだけで、さまざまなツールとのシームレスな連携を実現できるのです。つまり、モデルM種類とツールN種類の場合でも、考慮すべき組み合わせは M+N通りで済むようになります。この結果、開発者は特定ツールに依存しない汎用的なコードを書けるようになり、開発効率が大幅に向上しました。

MCPの活用例
MCPを介することで、AIエージェントは多種多様な外部ツールと連携できます。以下にMCP活用の具体例を挙げます。
外部データの取得:ウェブ検索やファイル/データベース参照など、インターネットやストレージから必要な情報を取得するツールです。
・ウェブ検索
検索エンジンを利用して最新の情報を取得します。人間がウェブ検索で情報収集するのと同様に、AIエージェントも検索結果から知識を得て応答に活用できます。
・ローカルファイルの参照
自分のPC内のファイルを読み込み、その内容を分析したり必要な情報を抽出したりします。
・データベースの参照
外部データベースに接続し、SQLクエリやベクトル検索によって該当データを取得します。類似情報の検索にも利用できます。
外部ツールの実行:プログラム実行やSaaSアプリ操作など、AIエージェントが外部のソフトウェアやサービスを直接操作するツールです。
・プログラムの実行
AIエージェント自身がPythonやJavaScriptなどのコードを実行します。その結果をもとに応答を生成したり、データ処理を行ったりできます。
・データベースの操作
AIエージェントがデータベースに対して、データの追加・更新・削除といった操作を行います(※データ参照は前述)。
・SaaSアプリケーションの操作
API経由でGoogleカレンダーやSlackなど各種SaaS(クラウドサービス)の機能を操作します。例えばカレンダー予定の自動調整や、チャットツールへのメッセージ送信などが可能です。
なお、以上で紹介したものはMCP対応ツールの一例に過ぎません。 その他にも多数のツールが公式のMCPの公式GitHubリポジトリで公開されていますので、興味のある方は参照してみてください。
AIエージェントの現在地と今後の展望
2024年以降、AIエージェントは急速に進化し、多様な分野で活用されるようになりました。 しかし同時に、より複雑な問題に対処する際の技術的限界も見え始めています。そこで、現在のAIエージェントが直面する主な課題を整理し、それを克服するアプローチとして注目される「マルチエージェントシステム」を解説します。
現在のAIエージェントの限界や課題
単一のAIエージェント(シングルエージェント)は、特定のタスクでは高い能力を示すものの、複雑な現実世界の問題には限界があります。代表的な課題として次の点が挙げられます。
コンテキストウィンドウの制約:LLMが処理できるトークン数(文脈の長さ)には上限があるため、長い対話履歴の保持や大規模文書の分析、複数情報源を統合した回答生成など現実のビジネスシーンで求められる処理において、この制約がボトルネックになる場合があります。
役割の複雑化による性能低下:単一のAIエージェントに多種多様な役割を担わせると、各タスクに対する専門性が薄まり全体的なパフォーマンスが低下しがちです。情報収集・データ分析・レポート生成といった異なる種類のタスクを1体のエージェントで処理すると、どのタスクにも中途半端な対応しかできず質が下がるリスクがあります。
ツール増加による利用判断精度の低下:利用可能なツールやAPIが増えるほど、適切なツール選択や出力結果の解釈といったプロセスが複雑化します。その結果、必要な場面でツールを使わない・不要な場面で誤ってツールを使ってしまうなど、エージェントの判断ミスが起こりやすくなります。
課題解決の方向性としてのマルチエージェントシステム
こうした単一エージェントの限界を克服する方法として、複数の専門AIエージェントが協調してタスクを遂行する「マルチエージェントシステム」に注目が集まっています。各エージェントが特定の役割に特化することで、システム全体として高い専門性と柔軟性を両立させることが可能になります。
マルチエージェントシステムには、単一エージェントでは実現が難しい多くの利点があります。 例えば、各エージェントが専任の役割を持つことで役割の一貫性が維持され、システム全体の拡張性が高くなり、複数エージェントを並列動作させることで効率化も図れます。
なお、マルチエージェントシステムの詳細な仕組みや実装手法、具体的な活用事例については、次回のコラムで詳しく解説する予定です。
まとめ
本コラムでは、AIエージェントが注目を集める背景とその基礎的な仕組みを解説してきました。 LLMの進化、マルチモーダル対応、ツール活用の高度化といった技術的進歩により、AIエージェントは人間の指示なしにタスクを遂行できる自律性を獲得しています。さらにMCP(Model Context Protocol)の登場により、ツール開発の効率化と外部サービス連携も加速度的に進んでいます。 今後、AIエージェントの開発は一層進み、さまざまな企業での活用が一段と進むことが期待されます。本コラムが、皆様のAIエージェント理解の一助となれば幸いです。
Laboro.AIの「AIエージェント領域のカスタムAI開発」はこちら
執筆者プロフィール
リード機械学習エンジニア 川崎奏宜
九州工業大学情報工学部電気電子情報工学科卒業。卒業後、SIer企業にて、画像認識技術を活用した施工現場の効率化や、自然言語処理技術を用いた人材マッチング案件に従事。2022年に株式会社Laboro.AIに参画し、自然言語処理を活用したビジネス探索やセンサデータを使った検査プロセスの自動化など、多岐にわたるプロジェクトを担当。共著に『今日から使えるファインチューニングレシピ: AI・機械学習の技術と実用をつなぐ基本テクニック』(オーム社刊)。



