仕組みから知る生成AIと技術研究の今

Laboro.AIコラム

仕組みから知る生成AIと技術研究の今

2023.8.25公開　2025.1.10更新
株式会社Laboro.AI　リードマーケター　熊谷勇一
執行役員　マーケティング部長　和田崇

概　要

生成AIの進展が続いています。新しい生成AIサービスや最新版の登場が相次いだり、多くの人が生成AIの働きを意識せずともその恩恵にあずかっていたりと、使うかどうかを検討するより、まずは使ってみて出力の一部だけでも活用できれば生産性が向上するという状況になっています。生成AIの仕組みを今一度確認しつつ、サービス例や技術研究のトレンドも見ていきます。

目　次

・生成AIとは
　・従来のAIとの違い
　・generativeやgeneration（世代）、general（将軍）はなぜ同じ語源か
・生成AIの仕組み
　・生成AI全般で言われるTransformerとは
　・言語生成AIで言われるGPTとは
　・画像生成AIで言われるCLIPとは
　・画像生成AIで言われるStable Diffusionとは
　・その他の画像生成AIモデル例①Midjourney
　・その他の画像生成AIモデル例②DALL-E
・その他の生成系AIサービス・活用例
　・言語生成
　　・ChatGPT
　　・Gemini
　　・Claude
　　・Sora
　・動画生成（text to video）
　　・Runway Gen-3 alpha
　　・Pictory.AI
　・音声生成（text to audio）
　　・MusicLM
　　・Suno AI
　・3D生成（text to 3D）
　・コード生成（text to code）
・生成AI技術研究のトレンド
　・オープンソース化とモデルの縮小化
　・超大規模モデルのファインチューニング手法
　・生成ジャンルの細分化
　・「AIエージェント」の普及
・加速する生成AIの産業応用

生成AIとは

生成AI(英:Generative AI)は、画像、文章、音声、プログラムコード、構造化データなどさまざまなコンテンツを生成することのできる人工知能のことです。大量のデータを学習した学習モデルが、人間が作成するような絵や文章を生成することができます。

出典：NIKKEI COMPASS「生成AI(ジェネレーティブAI)」

従来のAIとの違い

「Generative」という言葉は、「生産または発生することができる」という意味です。生成AIという言葉が注目されている理由としては、「従来のAI」（生成AIが登場する前のAI）とはいくつかの違いがあることが挙げられます。

従来のAI も、正解として与えられるデータの特徴を学習し、その学習内容に基づいて予測を行い、結果を出力するものでした。ですが、そこで出力される結果は、学習した内容に対する誤差や合致度などを表す正解率や適合率といった数値データが主でした。目的は、例えば「キズを検出する」のように、決まったタスクを自動化することに置かれることが多く、何かを新たに生成・創造することが目的とされることはありませんでした。

生成AIの場合は、もちろん予め定まった正解としてのデータ学習もしつつも、主にはデータ間の関係性やパターンが学習対象となり、さらに自律的に学習を進めその精度を更新していくための仕組みも施されています。学習に使うアルゴリズムのベースは、両者ともニューラルネットワークです。生成AIでは、画像やテキストなど構造化されていないデータセットや後述するRLHFという仕組みを基に学習し、新しいコンテンツを生成することを目的にします。

出典：NRI「生成AI」

generativeやgeneration（世代）、general（将軍）はなぜ同じ語源か

ところで、generativeと聞くと、関連語としてgenerate（生成する）、generation（世代、生成）、general（一般的な、将軍）を思い出す人もいるでしょう。「世代」や「将軍」がなぜ同じ語源なのでしょうか。gen-は、「出産する、生み出す」を意味する原始インドヨーロッパ語根です。generateはgenerationの基になった言葉のように見えますが、実は逆で、generationからgenerateが派生しています。generationはラテン語generatus（「生む、生産する」の過去分詞形）が基です。そしてgenerateを形容詞化したgenerativeは「生み出す力を持つ」を意味の核として持ち、「生成的な、生成力を持つ」といった訳語が当てられるようになっています。

generationがなぜ「世代」という意味を持つかというと、子が生まれその子が成長して子をもうけるまでの期間が約30年と考えられる一代が意味の核であり、これをよく使う表現にすると「世代」になるわけです。generalが「一般的な」という形容詞になるのは、「生み出された集団全体の」という意味が源です。そこからさらに「集団全体を管理する人」という意味も持つようになり、「将軍」という意味が現在も使われています。AIを活用して生成がある面では容易にできるようになった現在、この「管理」という派生の意味が重要になってくるかもしれません。

出典：エティモンライン – 英語語源辞典「generation (n.)」
　　　TOEFL® Web Magazine「第25回 gene│TOEFL® TESTスピーキング英単語　ワンポイント講義」
　　　語源英和辞典「general」

生成AIの仕組み

生成AIのモデルはさまざまにありますが、その一例を、文章生成（text to text）と画像生成（text to image）を例に説明します。下図の通り、文章生成の代表モデルとして GPTを挙げると、その要素技術にTransformer（トランスフォーマー）があります。画像生成の代表モデルとしては Stable Diffusionが知られていて、要素技術にDiffusionとCLIPがあり、それらはGPTと同じくTransformerにつながっています。以下、一つずつ説明していきます。　

生成AI全般で言われるTransformerとは

前述の通り、Transformerは文章生成でも画像生成でも使われている要素技術です。文章に含まれる単語のように、連続したデータの関係を追跡することによって、文脈ひいては意味を学習するニューラルネットワークです。Transformer モデルは、進化する一連の数学的手法（アテンションまたはセルフアテンションと呼ばれます）を適用して、同じ系内にある隔たったデータ要素間の微妙な相互影響や相互依存関係を見つけます。そしてモデルが持つパラーメーター数が大規模になればなるほど、精度が格段に向上するという「スケーリング則」が言われるようになりました。この長所を生かそうと、Transformerの登場以降、モデルの規模が求められ始めました。

Transformerにとって重要な技術に「自己教師あり学習」があります。自然言語処理の場合は、途中までの部分を読み込ませて次の単語を予測します。そうすると、正解データ、正解のラベルを用意しなくてよくなります。文章があるだけで、途中までの文章から次の単語を予測するという予測問題を作ることができ、この問題を使って学習をさせると、次の単語がうまく当てられるモデルができるわけです。これにTransformerを使うと、次の単語を当てはめる際に必要な単語の連接の確率や文法構造、トピックのつながり、背景知識などを学習させられ、精度が上がりやすくなりました。

出典：NVIDIA「Transformer モデルとは？」
　　　日本経済新聞「AI、閉塞破る第3の革新　「トランスフォーマー」の衝撃「ChatGPTエフェクト　破壊と創造のすべて」（2）」
　　　logmi Tech「技術の鍵は「トランスフォーマー」と「自己教師あり学習」松尾豊氏が、第3次AIブームからひもとく“AIの歴史”」

言語生成AIで言われるGPTとは

GPT（Generative Pre-Trained Transformer）は2018年に発表されましたが、2022年11月にOpenAIがChatGPTを発表して広く知られるようになりました。大規模なTransformerモデルで、大量の学習データから次に来る単語の確率を予測する技術です。従来の言語AIと比較すると、「データ量の増大」「パラメータの数の増大」「多くのタスクで追加学習なしで高精度」という特長があります。

一方、ChatGPTなどでは、命令（プロンプト）の出し方次第で得られる回答が異なるため、より最適なプロンプトを入力することが求められます。言い換えると、プロンプトを使いこなせないと、意図した通りの回答を得ることができません。そこで現在では、AIから望ましい出力を得るために、指示や命令を設計、最適化するスキルである「プロンプトエンジニアリング」という概念も登場・発達しています。

関連して、ChatGPTでは、ある質問から会話学習済みモデルが回答した文章に対し、どれくらい人間の感覚に近いかを報酬モデルが判定し、元のモデルにフィードバックすることを繰り返して強化学習を実施しました。このRLHF（Reinforcement Learning from Human Feedback：人間のフィードバックによる強化学習）というステップによって人間の感覚を教え込んだため、ChatGPTは適切な文章を出力できるようになりました。

出典：NRI「プロンプトエンジニアリング」

画像生成AIで言われるCLIPとは

CLIP（Contrastive Language–Image Pre-training、クリップ）は、2021年2月にOpenAIによって公開された、言語と画像のマルチモーダルモデル（数値、画像、テキスト、音声など複数のモダリティー（データ種別）を組み合わせて、もしくは関連付けて処理できる単一のAIモデル）です。ある画像とそれに対する説明文の類似度を出力でき、text to imageの画像生成では欠かせないモデルになっています。ウェブ上に豊富にある画像とテキストのペアのみの学習を行い、ImageNet（カラー写真の教師ラベル付き画像を1400万枚以上も持つ大規模なデータベース）やその関連データセットで高い精度での分類が可能です。画像とテキストの関連性のランク付けもできます。

出典：TRAIL「CLIP：言語と画像のマルチモーダル基盤モデル」　

画像生成AIで言われるStable Diffusionとは

Diffusion（ディフュージョン：拡散）モデルによる高品質な画像生成モデルと、前述のCLIPが融合したモデルです。CLIPがテキストと画像の関係性を学習するのに対し、Diffusionは画像に対してランダムノイズを徐々に当てていく過程を学習し、完全にノイズになったものを逆再生させることで生成を実現するというもので、ノイズ除去後の画像と元の画像の差分を少なくするように学習した技術です。計算に時間がかかる欠点はあるものの、GAN（Generative Adversarial Network、敵対的生成ネットワーク）などより多様な画像を安定して出力可能です。

なおGANは、発表された2014年当時かなり話題になった一世代前の画像生成AIで、画像を生成する「ジェネレータ」と、「その画像が本物か、ジェネレータによって生成された偽物か」を予測して出力する「ディスクリミネータ」を競い合わせることで新しい画像を作り出すことを狙ったものです。

出典：スタビジ「画像生成AIで頻出の拡散モデルについて分かりやすく解説！」

その他の画像生成AI ①Midjourney

単語、文章を問わず、描いてほしい絵のイメージやキーワードを入力すると、それに沿った画像をAIが作成してくれるサービスです。「Discord」というチャットサービス上で動くツールで、利用するにはDiscordのアカウント登録が必要です。テキストは日本語に対応していますが、英語を入力した方がより高品質のイラストが作成される傾向にあるようです。ウェブアプリ版のみ無料利用が可能で、「1アカウントあたり約25枚」の枚数制限があります。有料利用は使用規模に合わせて月額10、30、60、120ドルの4プランがあり、商業利用もできます。

その他の画像生成AI ②DALL-E

DALL-E（ダリ）は、OpenAIがChatGPT PlusとMicrosoft Copilot上で使えるサービスとして2023年10月にリリースしました。画家のサルバドール・ダリとピクサーアニメ映画に登場するキャラクター「ウォーリー」（WALL-E）名前が由来とされています。ChatGPTでは有料プランであるChatGPT Plus（月額20ドル）上で利用できるほか、無料ユーザーでも1日最大2枚まで利用できます。Microsoft CopilotとBing Image Creatorは基本的に無料です。

画像生成AIについてはこちらもご覧ください。

出典：SE Design「DALL・E2とは？基本機能や使い方、利用料金、注意点などを解説」

画像生成AIについてはこちらもご覧ください。
私たちが画像生成AIで描くものは、アートか、それとも心か

その他の生成AIサービス・活用例

文章生成と画像生成で生成AIの仕組みを見てきましたが、生成するものはそれらにとどまりません。代表的な例を見ていきます。

言語生成

言語生成分野は、出力の精度が広く分かりやすいこともあり、進展している領域の一つです。テキストの作成に関わるタスクであれば、使い方次第ではあらゆる目的に対応できるよう、機能・精度の向上が目覚ましく進んでいます。

言語生成AIは次々と登場する中、現在この分野を代表するサービスは、以下のChatGPTとGemini、そしてClaudeが挙げられます。それぞれの概要をここで確認しておきましょう。

ChatGPT

ChatGPTは、OpenAI社が手がける対話型の生成AIです。ChatGPTの大きな特徴は、高度な言語モデルが頻繁なアップデートによって実装されている点です。一般利用可能なモデルの「GPT-4o」は、従来のモデルよりも応答速度や対応品質が飛躍的に向上しており、人間の対応と大差がなくなっていることを体験できるかもしれません。

2024年にはChatGPT Plusの上位サービス「ChatGPT Pro」も提供され、同社による最新のLLM（大規模言語モデル）であり推論能力を高めた「OpenAI o1 （オーワン）pro」などが利用可能で、進化し続けています。なお、2024年末には「o1」の性能をさらに高めた後継モデルにあたる「o3」が発表され、一般公開が待たれるところです。

ChatGPTはAPI連携による自社サービスへの組み込みも容易です。生成AIを一から開発することなく、自社サービス向けにチューニングを行うだけでオリジナルなAIサービスを提供できる点は、強力なメリットといえます。

出典：NEC「ChatGPTとは？できることや活用事例などをわかりやすく解説」

Gemini

GeminiはGoogleが新たに提供を開始した、マルチモーダル型の生成AIです。自然言語を使った言語生成機能はもちろんのこと、画像や動画、音声データを入力として扱え、テキスト、画像を出力できるため、幅広い利用法が期待されています。

ChatGPTの強みの一つは、比較的に頻繁に更新されるモデルに表されている進化・品質向上です。Geminiに搭載されているモデルは、GPT-4と同等、あるいはそれ以上という評価されたこともあり、モデル開発競争の結果、進化することも期待されています。

Geminiの最大の特徴は、Google公式の生成AIである点です。そのため、GoogleドキュメントやGmailなど、各種Googleサービスと相性良く連携でき、それを強みとした進展が予想されます。

出典：スキルアップAI Journal「最新の生成AI「Gemini」とは？3つのモデルや利用料金、使い方などを解説」

Claude

Claude（クロード）は米国のAI企業であるAnthropicによって提供されている言語生成型の生成AIです。ChatGPTなどと同様に、チャット形式でAIと対話を重ねながら、テキストを生成することができます。

Claudeの特徴は、GPT-4と同等のモデルを、ChatGPTよりも安価に利用できる点です。また、一度に対応可能な文章量についても、GPTのそれを上回るため、費用対効果や業務効率の面で高い評価を獲得しています。

ChatGPTと同様にAPI連携に対応しているので、自社システムに組み込んで運用することも可能です。

出典：AISmiley「Claude（クロード）とは？Anthropicの最新AIモデルの使い方や活用例を紹介」

Sora

Soraは、2024年にOpenAIが発表した動画生成AIモデルです。テキストでプロンプトを入力するだけで、最長1分間の高品質な動画を生成できます。数行の文章に基づいて写実的や絵画的な映像、シミュレーションゲーム風の映像を瞬時に高品質に生成することから、驚きをもって迎えられました。

動画生成（text to video）

Runway Gen-3 alpha

1枚の画像からAIが動画を生成する「Gen-2」で話題になったのが、ランウェイ（Runway）社のサービスです。 2023年2月に発表された「Gen-1」は、動画をプロンプトに応じて別の動画へと変換する（video to video）サービスでしたが、同年6月に一般にもリリースされたGen-2からは、描いてほしい場面をテキストプロンプトとして入力すると、動画を生成する「text to video」が実現できるようになりました。さらに7月下旬にアップデートして、画像から動画を生成する「image to video」が追加。1コマ目の画像を指定できるようになり、狙った場面を作り出しやすくなりました。2024年にリリースされた「Gen-3 Turbo」は、従来のサービスより動画生成時間が早まり、高画質かつ低料金にもなっているなどの特徴を持っています。

出典：ASCII×AI「動画生成AIがすごすぎる　映画登場も遠くない」
　　　EdgeHUB「動画生成AI「Runway Gen-3 Alpha Turbo」使い方や料金を初心者向けに解説！」

Pictory.AI

Pictory.AIは、動画生成AIサービスです。AIに自然言語でプロンプトを与えることで、そのプロンプトに則した動画を生成してくれます。

キャプションも生成できるのも特徴の一つです。多言語対応もしているので、グローバルにコンテンツを生成・発信したい場合にも有利です。

操作がクラウド上で完結するのも魅力です。動画編集や作成はもともと負荷が大きいため、実現には相応のマシンスペックが求められてきました。その制約がかなり軽減されることになるので、動画作成をより手軽に始められることになります。

出典：Strategy「Pictory.AIとは？使い方や料金、日本語対応や商用利用について解説」

音声生成（text to audio）

MusicLM

2023年1月にGoogleの研究部門である「Google Reserch」は、文章を入力として音楽を生成するAIツール「MusicLM」を発表しました。28万時間に及ぶ音楽のデータセットを用いて学習したAIを使用し、同年5月に体験版が出ました。ユーザーによる「ディナーパーティーのためのソウルフルなジャズ」や「催眠術にかかるようなインダストリアルなテクノサウンドを作る」といった複雑な文章に応じた曲をいくつか作成することが可能としています。

Soundmain「Google、テキストから音楽を作れる音楽生成AIツール「MusicLM」試用版を公開」

Suno AI

Suno AIは、米国のSuno社が2023年12月20日に発表した音楽生成AIで、ボーカルと楽器演奏を組み合わせた楽曲や、楽器演奏だけで構成される楽曲を、テキストから生成できるサービスです。音楽制作の知識がなくても、歌詞や曲のイメージをテキストで入力するだけで、オリジナルの楽曲を作ることができます。パソコンとiOSのスマホの両方から利用できる手軽さも特徴です。最新バージョンでは、無料ユーザーでも高度な機能を使用可能になっており、生成速度の向上、楽曲のバリエーション拡大などのさまざまなアップデートもされました。

3D生成（text to 3D）

大手半導体メーカーでありAI開発にも力を入れているNVIDIAが2022年11月に、入力したテキストを基に3Dモデルを生成するAI「Magic3D」を発表しました。Magic3Dは3Dモデル生成に2段階のプロセスを使用しています。最初に入力されたテキストを基に、NVIDIAが提供している画像生成AI「eDiffi」で2D画像を生成。その後、画像から空間を構築するNVIDIA Instant-NGPを使用し、2D画像から低解像度の3Dモデルを生成します。次に、低解像度3Dモデルメッシュから高解像度の3Dモデルを合成する「DMTet AI」を使用し、高解像度の3Dモデルを抽出しています。　

Gigazine「テキストから高解像度の3Dモデルを生成するAI「Magic3D」をNVIDIAが発表、テキストの微調整やスタイルの模倣も可能」

コード生成（text to code）

GitHubは2023年3月に、プログラマー支援ツール「GitHub Copilot X」を進化させた「GitHub Copilot X」を発表しました。OpenAIのGPT-4（Generative Pre-trained Transformer 4）を採用し、チャットと音声機能が組み込まれ、プロジェクトのあらゆる場面でAIが利用可能としています。 GitHub Copilotとは、OpenAIのGPT-3を改良したテキスト生成の言語モデルである「OpenAI Codex」を利用するコード生成・変換を得意とするプログラマー支援ツールです。GitHub Copilotに対してコードを書いたり、コードにさせたいことをコメントとして伝えたりすると、プログラムに必要なコードの候補を提示してくれます。また日本語のコメントも処理できることが確認できています。

アンドエンジニア「「GitHub Copilot X」が発表！開発者を支える新技術」

生成AI技術研究のトレンド

生成AI技術研究のトレンドとして以下の四つが挙げられます。　

オープンソース化とモデルの縮小化

クローズなモデルであるOpenAI一強の状態から、Meta AIによるLLaMA、スタンフォード大学によるAlpacaなどオープンソースで高精度なモデルが登場してきました。さらに、モデルの縮小化も進んでいます。例えば、OpenAIによるGPT-3のパラメータ数は1700億、GoogleによるPaLMは5400億でしたが、前述のLLaMaは650億、Alpacaは70億と文字通り桁違いに減っていつつ、精度は維持されていることが報告されています。

さらに、2024年3月にSakana AIが複数の小型モデルをマージ（統合）する「進化的モデルマージ」という方法を発表したり、同年4月にMicrosoftが「Phi-3」、12月に「Phi-4」という小規模言語モデル（SLM）をリリース、また、検索エンジンBingにおいて「LLMとSLMを組み合わせる方式へ移行する」と発表したりするなど、縮小化の傾向が見られます。　

超大規模モデルのファインチューニング手法

LoRA（追加学習の際に必要となるメモリと計算量を大幅に削減し、かつ数十枚という少ない画像データでも良好な結果が得られる手法）やその派生手法であるAdaLoRAなど、ファインチューニングを効率的に実施する手法が登場しています。　

生成ジャンルの細分化

前述のStable Diffusionを開発したStability AIは、テキストと画像を同時に生成できるDeepFloydもリリースしています。例えば、「腹部に『おやすみ』という文字が書かれた服を着たコアラ」というテキストプロンプトを入力すると、このテキストの通りの画像が出力されます。生成AIと関連の深いLLM（Large Language Models、大規模言語モデル。大量のテキストデータを使ってトレーニングされた自然言語処理のモデル）は産業別に特化する動きが見られ、医療系の「ChatDoctor」、金融系の「BloombergGPT」、化学系の「BO-LIFT」などが登場しています。

「AIエージェント」の普及

本コラムで取り上げてきた生成AIは基本的に、人間が出すプロンプトで持って出力をするもので、「指示待ち型」ともいえます。しかし2024年秋以降、「自分でタスクを理解し、最適な行動手順を考え、必要に応じて外部リソースを参照しつつ結果を出す」という自律的な問題解決が可能なAIが登場してきました。そうしたAIは「AIエージェント」と呼ばれます。

例えば、Anthropicが2024年10月に発表した「Computer use（コンピューターの使用）」という機能は、AIエージェントが人間と同じように、マウスやキーボードでパソコンのGUI画面を直接操作できるようにするものです。これにより、APIが提供されていないアプリケーションにも対応可能となり、従来はRPAツールで行っていた定型作業などの自動化も、今後はAIエージェントで代替できるかもしれません。

出典：＠IT「2025年、「AI」はこう変わる！　注目トレンド8選」

加速する生成AIの産業応用

生成AIに関して日本は、ChatGPTの利用度合いが世界的に見て高いという調査結果があったり、国内企業による独自のLLMの開発宣言が相次いでいたり、そして何より、生成AIが活用されているかどうかを意識せずとも利用しているサービスが当たり前に存在したりして、利用・開発の両側面でビジネス活用が今後促進されるであろう状況がうかがい知れます。

しかしその用途に目を向けてみると、コールセンター業務のチャットボット化や、広告デザインの生成、文章要約・翻訳といったバックオフィス業務の効率化など、総じてみれば既存にあった業務をAIに代替させるケースが多い状況です。生成AIを活用した新製品開発、新サービス開発、新規事業の開発など、ビジネスモデルの変革にもつながるような本来の意味でのDXを目的とした用途での生成AIの活用は、まだまだ始まったばかりです。

急速に技術進展を見せる生成AIですが、その真価は、中長期的な視点でビジネス成長をもたらせるかどうかにあり、当社ではこうした成長投資としてAI活用を目指すようなテーマを「バリューアップ型AIテーマ」と定義しています。そして、バリューアップを目的としたAI開発においては、そもそもビジネス課題が何であり、それを解決するためのソリューションとして生成AI をどう設計（デザイン）すべきか、AI技術と現場ビジネスの両方を見据えて検討を入念に行う必要があります。

さらに当社ではこのテクノロジーとビジネスをつなぐプロセスを「ソリューションデザイン」という名で体系化し、AI開発に必要なコンサルティング・プロセスとしてサービス提供しています。テクノロジーとビジネスの両面の視点を携えてソリューションデザインを行い、中長期的なバリューアップのために活用していけるかどうかが、今後の生成AIの産業応用においては重要になってくるはずです。

執筆者

マーケティング部　リードマーケター　熊谷勇一

中央大学文学部卒業、北陸先端科学技術大学院大学情報科学研究科博士前期課程修了。日本経済新聞社など日経ブランド企業で16年、雑誌、書籍、ウェブサイト、動画などの編集・執筆を手掛けた後、2022年からLaboro.AIに参画。

執行役員マーケティング部長　和田崇

立教大学大学院経営学修士（マーケティング論・消費者行動論）。立教大学大学院ビジネスデザイン研究科博士後期課程中退。KDDI株式会社に入社、コンシューマ向け商品・サービスのクロスメディアによるプロモーション施策の立案・企画運営に携わったのち、全国漁業協同組合連合会を経て、2019年にLaboro.AIに参画。マーケティング／ブランディング業務に従事する傍ら、NewsPicksプロピッカーとして活動するほか、日経クロストレンドなどメディア寄稿多数。