TOP

アクティビティ

コラム

Laboroコラム

自然言語処理:AIで言葉を活用してビジネスを変える仕組みを解説

Laboro.AIコラム

自然言語処理:AIで言葉を活用してビジネスを変える仕組みを解説

2022.10.21公開 2024.12.25更新
株式会社Laboro.AI リードマーケター 熊谷 勇一
執行役員 マーケティング部長 和田崇

概 要

インターネット検索、ニュース記事などのウェブページの機械翻訳、スマートフォンでの音声認識、問い合わせの際のチャットボット、そして近年注目を集めるChatGPTなどなど、私たち人間が扱う言葉を認識して何かしらの出力を返すサービスは、最も身近なAIの実装例といえるでしょう。これらに共通するAI技術は「自然言語処理」と呼ばれ、生成AIの進展によって、AIの中でも近年特に発展している分野の一つです。

目 次

自然言語処理とは
 ・無意識に使っている自然言語処理
 ・意識的に使うべき自然言語処理
自然言語処理の種類
 ・自然言語理解(NLU)
 ・自然言語生成(NLG)
自然言語処理が注目される理由
 ・インターネット、スマホの進展に伴う莫大なテキストデータの流通
 ・ビジネスシーンにおける大きな需要
自然言語処理の仕組み
 ・コーパス
 ・フェーズ1:形態素解析
 ・フェーズ2:構文解析
 ・フェーズ3:意味解析
 ・フェーズ4:文脈解析
自然言語処理の活用事例​
 ・金融機関で目指す「AI営業」の基盤にLLM
 ・セキュリティー運用支援を生成AIがアドバイス
 ・熟練技術者のノウハウで学習、トラブル対処法を出力
 ・自動運転システムの開発にもLLMを活用
 ・ブランド人格を反映した対話テキスト自動生成
自然言語処理の未来と課題
 ・あらゆるコミュニケーションがAIありきで行われる将来も
 ・ブラックボックス化されている生成AIの自然言語処理
自然言語処理との付き合いはもう前提

「自然言語処理」とは

自然言語とは、我々人間が操る言語のことを指しており、「自然」は人間のことを指しています。AI活用における自然言語処理について話すとき、自然言語の対になる概念は、機械語などを要素として持つプログラミング言語です。

自然言語は人同士がコミュニケーションを取るために発達してきたもので、ある程度の曖昧性(一つの文字列で意味が複数成り立つこと)を含んでいます。例えば同じ言葉の並びでも、切り方で意味が違ったり、状況によって捉え方が変わったりします。

一方のプログラミング言語は、記述された文は一意であり、コンピュータはプログラミング言語に従って決められた処理を行います。

自然言語処理とは、コンピュータをプログラミング言語ではなく自然言語に対応させることを指します。AIの代表的な技術である機械学習、とりわけディープラーニングが発達し、ゲームや画像認識などで先に活用・実装例が出てきましたが、自然言語処理は後述するTransformerというアーキテクチャを核に近年大きく発展してきています。

こうした自然言語処理は、Natural Language Processingの和訳で、エンジニアの間では専ら略称のNLPと呼ばれています。ただ、NLPというと、Neuro-Linguistic Programming、神経言語プログラミングの略称でもあり、プログラミングという名前が付いていますが、学問としては心理学の領域です。文脈によってどちらを指すか変わってきますので、注意が必要です。

無意識に使っている自然言語処理

パソコンやスマートフォンで使えて私たちが最も頻繁に使っているNLPは、予測変換かもしれません。日本語の場合、単語ごとではなく、1文などある程度の長さの文字列を入力すると、品詞ごとに変換候補を示してくれることがあります。これは後述する形態素解析ができている状態です。また、採用数が多い変換候補は次に出てきたときは最初に示してくれたり、Wordなど文書作成ソフトの製作者側に形態素解析や変換候補表示の質についてフィードバックを与えるとゆくゆくは改善されたりします。

インターネット検索も、NLPの賜物です。検索したい言葉を入力して、その文字列と一致する文字列を含むウェブページを提示するのはもちろん、検索したい言葉と一緒によく検索されている言葉を提示(サジェスト)したり、検索語にスペルミスやタイプミスがあっても正しいであろう文字列で検索してくれたり、といった機能が拡張しています。

意識的に使うべき自然言語処理

近年、急速に精度が上がってきたと言われているのが、機械翻訳です。英語ではMachine Translationなので、略してMTと呼ばれることもあります。今ではChatGPTのようなLLMでも十分な性能での機械翻訳が可能になっていますが、例えば2017年にサービス提供を始めたドイツのDeepL(ディープエル)は、それまで精度がかなり高いと見られていたGoogle翻訳よりも精度が高いということで当初は特に評判を集めました。2024年12月現在、日本語を含む31言語に対応しています。

しかし、いくら精度が高いといっても、文末表現が単調といった読みやすさの問題だけでなく、文脈に合致しない訳文の出力や、ある1文を丸ごと出力から漏らしてしまう「訳抜け」の発生という致命的な問題が起きるなど、出てきた訳文がそのまま翻訳書となって出版できるレベルには全く到達していません。仕事上で外国語で書かれた資料を要約してレポートを作るなどという場合にも、MTが生成した訳文をそのまま使うのは避けた方がいいでしょう。もし使うとしても、少なからず書き直しをすることを前提とした土台の文章を出力してくれるシステムとして捉えるべきです。

けれども機械翻訳は、外国の好きなアーティストや友人のSNS投稿などの意味をなんとなく知るくらいであれば、価値があるでしょう。特に英語以外の言語で書かれていればなおさらで、従来であれば多くの人にとって全く調べようがなくお手上げだった文章の意味が少しでも分かるようになったのは画期的です。グローバルなコミュニケーションが促進されているとも言えるでしょう。

文字起こしや議事録作成サービスもAIの恩恵で生まれた便利なシステムです。従来は他人が話していることをその場でなるべく文字入力していくなり、ノートや録音を駆使して記録して後で見返し・聴き返しするなりして、文書を作成する必要がありました。しかし現在実現している文字起こし・議事録作成サービスは、精度はもちろん完璧ではありませんが、感覚的にいえば「しょうがない、直してやるか」と作業したくなるほどの精度で仕上がってきます。この「作業したくなる」というのが重要で、後で一から録音データを聴き直して文書を作成することと比べたら、格段に気が楽です。行動経済学で言うところの「ナッジ(そっと促す)」にも通じるでしょう。「AIは人間活動の補助をするためにある」ことにもつながります。

Microsoftのサービスでは、Wordなどの文書作成ソフトに実装されて久しいのが校正機能で、これも自然言語処理の恩恵です。同社は2023年に生成AIアシスタントであるCopilotをリリースし、Wordなどのソフトと組み合わせて活用できるという強みを持っています。Word上で文章生成や要約、翻訳、Excel上でデータの可視化・分析、Outlook上でメールの要約や下書きといった自動化・効率化が図れます。

自然言語処理の種類

自然言語処理と似た概念に、自然言語理解(NLU: Natural Language Understanding)と自然言語生成(NLG: Natural Language Generation)があります。それぞれどのような違いがあるのか、確認しておきましょう。

自然言語理解(NLU)

自然言語理解は、ある文章に対して、テキストの解析や音声の意味解析・構文理解によって、文章を把握するという、自然言語処理の1分野を指します。

人間は自然言語を扱うときに、必ずしも構文化されていなくとも、その意味を理解できます。一方、コンピュータの場合、自然言語を理解するためには構文化、すなわち文章の文法的構造と、その文が意図するところを定義しなければ、言語として理解することができません。

自然言語理解という仕組みを実装することで、AIは自然言語の要点や話題、話者・筆者の感性・感情や意図といった意味を理解できるようになります。

また、オントロジーを構築する上でも自然言語理解は重要です。オントロジーとは、言葉の意味を正確に伝えて知識の共有をするために、言葉同士の関係がどのようなものになっているかを定めるデータ構造です。例えば、「カレー」は「料理」という概念の要素の一つであり、「カレーを作る手順」は「切る」「炒める」「煮る」という順になり、「切る」とは…、と言った具合に概念との関係性や順序などが整理されたものです。こちらも人間は自然と会話の中で把握することができますが、コンピュータは自然言語理解を通じた分析によって解釈する必要があり、その高度化によってもAIの自然言語処理は進化を遂げてきました。  

自然言語生成(NLG)

自然言語生成は、自然言語理解の技術を出力のために応用することを指すための概念です。

ChatGPTのような生成AI、特にLLM(大規模言語モデル)は、自然言語生成の技術の進化がもたらしたAIの形態です。自然言語として人間がストレスなく理解できる出力をするには高度な技術を要します。語彙や構文、文法的な正しさ、そして質問にきちんと対応していてなおかつ適切な回答は、数十年の研究を経て現在かなり得られるようになりましたが、ハルシネーションはまだまだ起き得る状態で、今なお研究が進められています。

人間は情報の処理と入出力を自然言語で脳内で瞬時に行っていますが、現状の生成AIは情報の入出力は自然言語でありつつも、処理はプログラミング言語に代表される人工言語で実施されています。しかし将来、すべての情報処理を自然言語で行うAIが登場する可能性もあるかもしれません。

自然言語処理が注目される理由

自然言語処理が、現代で大きく注目を集めているのには、どのような理由があるのでしょうか。ここでは主な二つの理由を解説します。

インターネット、スマホの進展に伴う莫大なテキストデータの流通

自然言語処理の重要性が高まっているのには、インターネットの普及と密接な関係があります。私たちが一般生活で使用するコミュニケーションツールである自然言語は、日常会話だけでなく、インターネット上の通信でも広く使用されています。スマートフォンの登場によってインターネットの利用者が一段と広まり、SNSの登場と相まって、インターネット上に膨大な自然言語情報が蓄積されるようになりました。

AIを高度に学習させる上で、そうした自然言語のデータを効率良く処理できる仕組みは有用ですが、そうしたデータは構造化されておらず、従来のAIでは学習に利用するのに限界がありました。しかし例えばGoogleが開発した自然言語処理モデルであるBERT(Bidirectional Encoder Representations from Transformers)は、インターネット上にある大量のラベル付けされていないデータから事前学習ができるようになっています。これを支えているのが、「BERT」さらには「ChatGPT」の“T”の部分を指すTransformerというアーキテクチャです。Transformerは、文章中のすべての単語同士の関連性を把握することを通して、より高度な文脈・意味の理解、複雑なテキスト処理に対応することを可能にし、自然言語処理の可能性を開拓しました。

今後、自然言語を用いるAIがより広まって質の良い学習データも蓄積され、それによってまたAIが進化して…といった正の連鎖が起き、人間と見分けがつかないレベルの出力をするAIが実現するかもしれません。

ビジネスシーンにおける大きな需要

人間が扱う言語が自然言語なのですから、日常生活を通して膨大な自然言語情報がやり取りされているのは当然です。そしてそのことから分かるのが、自然言語を入力とするAIは人間にとって使いやすく、もちろんビジネスでも幅広く適用しやすいことから、効率化や付加価値の増大も狙えるため、その普及は年々高まっています。

いわゆる単純作業のデスクワークだけでなく、例えばAIに複数の人格を演じてもらってのアイデア出し・企画書作成や、自然言語で指示をして画像データとして出力させるデザイン制作といった、比較的複雑な作業にも使えるようになっています。 上で挙げた例は1種類(モーダル)のデータを入力とし、1種類のデータを出力とする(入力データのモーダルと同じでも異なっていてもよい)「シングルモーダルAI」ですが、例えば音声、画像、音、テキストという複数(マルチ)のモーダルを用いて環境認識というタスクを実現する「マルチモーダルAI」にも自然言語処理は活用され、より多様で複雑なタスクを実現するのに役立っていくでしょう。

自然言語処理の仕組み

AIが自然言語を処理するときに必要となるのが「コーパス」というツールです。これを用い、四つのフェーズで処理していきます。以下、コーパスとフェーズを一つずつ解説します。

コーパス

コーパスは、簡単に言えばその言語において実際に使用されている例文を集め、文法などの構造情報を整理したデータベースです。新聞記事や小説、辞書、インターネット上の記事、SNSなどから文章を集めたものをテキストコーパス、インタビューや講演などを収録した音声データを集めたものを音声コーパスと言います。

人間が母国語以外の言語を学ぶとき、単語や熟語の辞書的な意味を覚えるだけでは不十分で、例文にいくつも触れることで学習を進めていきます。AIによる自然言語処理も同様で、辞書的な意味を覚えさせるだけでは不十分のため、学習のためにコーパスが使用されます。

コーパスの中には、各単語に品詞のタグを付けたコーパスや、語義のタグを付けたコーパスなどがあります。自然言語処理をするAIは、このコーパスを使って頻出する単語同士の関係性やよく使われる会話パターンなどを学習していきます。 テキストコーパスはオンライン辞書サービスであるWeblioなどで見たことがあってなじみがある方が多いかもしれませんが、音声コーパスはちょっとイメージがつきづらいかもしれません。 Laboro.AIではTV録画から長時間音声と字幕テキストを抽出して音声コーパスを自動構築する独自システムを用い、約2000時間に及ぶ音声データから構築した日本語音声コーパス「LaboroTVSpeech(ラボロティービースピーチ)』を開発し、、2024年にはデータ量を約3倍に増量して、より高品質な音声データとしてアップデートした「LaboroTVSpeech2」を開発・提供しています。

フェーズ1:形態素解析

自然言語処理の第1段階として行われるのが、形態素解析です。

形態素とは、意味を持つ最小単位を指します。厳密には、形態素は品詞よりもさらに細かく分類したものを指しますが、さしずめ品詞と言っても差し支えありません。「私は犬が好きです」という文があったとき、形態素に分割すると以下のようになります。

私 は 犬 が 好き です

形態素解析では読み込んだ文を上記のように一つひとつの形態素に分割し、名詞や助詞といった品詞に分類し、コンピュータが一つひとつの意味を認識できるようにします。

形態素解析には、専用の形態素解析エンジンが使われます。

フェーズ2:構文解析

形態素解析の次は、文の構造を理解するための構文解析が行われます。

構文解析では、分割した形態素同士がどのような関係になっているかを解析し、構文としてつなげていきます。

例えば、上記の例では「私は」「犬が」といったように文節(日本語の言語単位の一つ。文の構成要素で、文を実際の言葉として不自然にならない程度に区切ったとき得られる最小のひとまとまりのもの)にまとめることはできますが、「は犬」「が好き」でまとめることはできません。構文解析を行うことで、文を構成する形態素がそれぞれどのような関係なのかを解析していきます。

フェーズ3:意味解析

構文解析の次は、意味解析が行われます。

これは名前の通り、解析した構文がどのような意味を持つかをコンピュータが判断するために行われます。コーパスを使って学習するなどしてさまざまな意味を学習しているAIが、解析した構文を参照し、どのような意味になっているかを解析します。文が曖昧さを持っていて解釈の可能性が複数ある場合、どの解釈が妥当かの判断もここで行われます。

フェーズ4:文脈解析

最後に、文脈解析が行われます。

文脈解析では、複数の文を解析し、その文脈ではどのような意味を持つのかを判断します。自然言語は同じ単語でも文脈によって意味が変わることがあるため、ここではそうした意味の変化をAIが認識します。

自然言語処理の活用事例​

AIによる自然言語処理を活用することで、我々の生活を便利にするさまざまなサービスが登場しており、特に近年はLLMによってテキスト生成を大きく超えた活用法が実現しています。

金融機関で目指す「AI営業」の基盤にLLM

三菱UFJフィナンシャル・グループは生成AIの導入に向けた2027年3月期までの中期計画の中で、生成AIが提案書作成や、電話や店頭で顧客対応する「AI営業」なども視野に入れています。それを実現するため、AIベンダーなどと連携して、生成AIの基盤となるLLMも開発するとしています。提案書の作成は、顧客との会話内容などを含めた記録を詳しくとってAIに読み込ませることで実現を狙っています。AI営業は、店頭で生成AIを搭載した機械が応対したり電話で生成AIが営業したりする方法を計画しています。

出典:日本経済新聞「三菱UFJ、「AIで営業」視野に 3年で500億円投資

セキュリティー運用支援を生成AIがアドバイス

NTTコミュニケーションズは、NTT独自のLLM「tsuzumi」などを活用したセキュリティー運用支援アプリ「AI Advisor」を2025年1月から提供すると発表しました。自社のIT環境などの構成情報やNTTが蓄積してきたセキュリティー運用ノウハウを学習させることで、顧客企業の環境に基づいたリスク評価や、会社規定に合わせた周知文案やレポート作成も支援できるとしています。さらに、企業のセキュリティー運用者は生成AIにサイバー攻撃時の復旧対応の方法などを問い合わせられることなども通して、経験の少ない運用者の負担を減らすことを見込んでいます。

出典:NTTコミュニケーションズ「生成AIを活用したセキュリティ運用支援ソリューション「AI Advisor」を開発

熟練技術者のノウハウで学習、トラブル対処法を出力

TOPPANホールディングスは工場で技能伝承に使う生成AIを、仏ミストラルAIや米グーグルなどのLLMを基に開発しました。熟練技術者が生産設備の稼働データから想定する問題点など設備保全ノウハウのデータベースをAIに学習させ、生産現場でのトラブルの内容を入力すると対処法を出力するAIです。例えば「包装材フィルムの印刷装置で異音がする」と入力すると「温度が200度超に上がっているのでは」「ネジが緩んでいないか」などと返します。包装工場など6工場にすでに導入しており、生成AIはベテラン技術者と遜色ない対応能力を発揮したとしています。さらに、設備トラブル対応の迅速化や担当外の設備保全ノウハウ共有により、導入済み6工場合計で年間約750時間の事務作業が削減できメンテナンスによる停止時間も短縮できています。

出典:日本経済新聞「TOPPAN、生成AIに熟練技術者の知見 故障対応素早く

自動運転システムの開発にもLLMを活用

自動運転システムの開発にもLLMが活用されています。AIユニコーンの英ウェイブ社は、LLMを使って運転判断の理由を自然言語でリアルタイムに説明し、利用者の信頼を高めるこれらのシステムを開発しています。実社会での精度はまだ不明ですが、自然言語を使って運転判断の理由を説明し、自動運転システムの透明性向上と説明可能なAIを追究し、規制面での自動運転車の導入の壁になっているアルゴリズムの意思決定の「ブラックボックス」問題に対処することを目的としています。

また米ウェイモ社は、周囲の車や歩行者などの動きを予測するプロセス「軌道予測」を向上させるために、言語モデルの活用を研究しており、2023年にはクルマや歩行者など周囲の複数のエージェントの動きを同時に予測する方法を示しています。

CBインサイツ「生成AI、自動運転車の開発加速 仮想空間で公道訓練

ブランド人格を反映した対話テキスト自動生成

大広様とLaboro.AIは、近年注目を集める生成AI「ChatGPT」をカスタマイズし、ブランドにふさわしい対話を自動生成する独自のテキスト自動生成エンジン「Brand Dialogue AI(ブランド ダイアログ エーアイ)」のプロトタイプの開発に取り組みました。企業ブランド、商品ブランドに立脚したオリジナルなブランド思想を維持しつつ、顧客ごとに最適化されたOne to Oneコミュニケーションを展開する必要があることが背景にあります。

開発は、OpenAI社のChatGPT(GPT 3.5 turbo API)にブランドコミュニケーションの起点となるブランド人格を反映してオリジナルの言語生成AIとして構築、さらにユーザーおよび対話内容に応じて瞬時にプロンプトを入れ替える「ダイナミックプロンプト」を活用し、各企業が保有するパーソナルデータや商品データ、コンテンツデータを対話に反映しました。ブランドらしさを体現する生成AIが、各顧客とブランド思想に沿ったOne to Oneでの対話を可能にする仕組みと位置付けられます。

ブランド・コンセプトやブランド・ストーリーなど、ブランド思想を維持したコミュニケーションを実現することから、多数の顧客ごとにパーソナライズしながらも一貫したブランド体験を提供する、新たなブランディングツールとしての活用が期待されます。

出典:Laboro.AI「ブランド人格を反映した対話テキスト自動生成

自然言語処理の未来と課題

自然言語処理には多くの可能性があると考えられている一方、課題も残ります。自然言語処理の将来性と課題について、主な議論の対象となっているのは以下の通りです。

あらゆるコミュニケーションがAIありきで行われる将来も

生成AIによる自然言語処理能力は、すでに人間のコミュニケーション能力のそれと違わないレベルに達しています。前述の通り、自然言語処理を扱う現状のAIは、入出力は自然言語、処理は人工言語ですが、将来的には自然言語だけで入出力も処理も実行するAIが登場し、より高度なタスクをこなせるようになるかもしれません。入出力と処理の時間がもっと短縮されれば、人間による同時通訳を超える翻訳が実現し、使用言語が異なる人同士のコミュニケーションにおける言語の壁がほとんどなくなる未来も想像できます。

また、立場やその時々の微妙なコミュニケーションのニュアンスをAIが把握し、人間の発言やテキスト作成をリアルタイムで修正しながら発信するような仕組みが成立することもあり得ます。コミュニケーションが先天的に不得手な人でも、AIの力を借りることで、より社会的な生活を営めるようになるかもしれません。

ブラックボックス化されている生成AIの自然言語処理

一方、AIによる自然言語処理の代表的な課題はブラックボックス化です。処理の過程を明確に説明しきれないことがあり、特に例えば倫理的に問題のある出力がなされたときに「なぜそうなたのか」が不明であることは、問題を大きくします。また、倫理的でなくても単に事実と異なっているなど問題のある出力はハルシネーションと呼ばれ、その正誤の確認をするのにさまざまなコストがかかり、初めから人間がすれば良かったとなることも、まだまだあります。

つまり、コミュニケーションにおいてAIは便利さゆえに普及して欠かせなくなる一方、ハルシネーションなどの問題が起きたときの責任は、法的判断としては別に、実態としては使用者が中心になるということです。AIの開発者に責任を求めることももちろん考えられますが、自然言語処理を活用したAIが直面しやすいリアルタイムのコミュニケーションで問題が起きたときは、開発者に問い合わせる時間はもちろんなく、やはり使用者が当座の対応することになります。自然言語処理を活用したAIに限らず、AIを利用する際には、どれだけ便利になっても、ユーザーの管理能力や責任をはるかに超えるスケールでの運用には相応のリスクが伴うことを理解し、対策を立てておきましょう。

自然言語処理との付き合いはもう前提

以上のように、自然言語処理は私たちの生活や仕事の中にかなり入ってきています。「自然言語処理による出力の精度はまだまだ高くないので、なるべく使わないようにしよう」ではなく、精度に注意しつつどううまく付き合っていくかを探り続けるのが、生活や仕事での変化に対応していくのに求められる態度でしょう。

Laboro.AIでは自然言語処理に関して多くのソリューション提供だけでなく、独自の開発でも複数の実績があります。ぜひお気軽にご相談ください。

執筆者

マーケティング部 リードマーケター 熊谷勇一

中央大学文学部卒業、北陸先端科学技術大学院大学情報科学研究科博士前期課程修了。日本経済新聞社など日経ブランド企業で16年、雑誌、書籍、ウェブサイト、動画などの編集・執筆を手掛けた後、2022年からLaboro.AIに参画。

執行役員 マーケティング部長 和田 崇

立教大学大学院経営学修士(マーケティング論・消費者行動論)。立教大学大学院ビジネスデザイン研究科博士後期課程中退。KDDI株式会社に入社、コンシューマ向け商品・サービスのクロスメディアによるプロモーション施策の立案・企画運営に携わったのち、全国漁業協同組合連合会を経て、2019年にLaboro.AIに参画。マーケティング/ブランディング業務に従事する傍ら、NewsPicksプロピッカーとして活動するほか、日経クロストレンドなどメディア寄稿多数。

閉じる お問い合わせは
こちら