音声認識AIのいま。その技術や事例を知る

Laboro.AIコラム

音声認識AIのいま。その技術や事例を知る

2020.12.1公開　2025.2.25更新
株式会社Laboro.AI　執行役員　マーケティング部長　和田崇
リードマーケター　熊谷勇一

概　要

AI技術はさまざまな分野での活用が進められており、中でも私たちの生活の中にも広く浸透している技術が音声認識AIです。音声認識AIの大まかな仕組みや使用されている技術、実際の活用事例を紹介します。

目　次

・音声認識とは
　・音声認識AIがもたらす効果
　・音声認識の仕組み
　・音声認識AIを用いたサービスの普及状況
・音声認識の代表的な技術
　・音響分析
　・音響モデル
　・発音辞書
　・言語モデル
　・ディープラーニング技術
・音声認識の難しさ
　・日本語特有の音声や表現に対応しきれない
　・標準語以外の方言やスラングの認識に弱い
　・発言者の識別は困難
・音声認識と自然言語処理の関係
・音声認識AIの事例
　・音声AI家電
　　・音声アシスタント
　　・スマートスピーカー
　・クラウド環境で文字起こし
　・自動応答で店舗予約を完了
　・リアルタイムに通訳
・音声だけでなく音の認識も
　・動物の鳴き声を認識
　・生活音・環境音、異常音を認識
・音声認識AIの今後の課題
・音声認識AIはカスタムが必要な場合も

音声認識とは

音声認識とは、文字通り、人が発した“音声”をコンピュータに“認識”させることを目指した技術領域です。具体的に言えば、人間が話す音声を空気の振動として測定し、そこから得られた波形データを解析、文字データに変換するための技術です。

Amazon Echo（Alexa）やGoogleアシスタント、AppleのSiriなどのスマートスピーカーの存在も日常的に使われるようになってきました。AIによる音声認識が進化したことで、声だけで機械を操作したり、会議の議事録を効率よく作成したりといったことが実現されてきています。

音声認識AIがもたらす効果

現在、さまざまな企業で音声認識AIの導入が行われています。その際に、音声認識AIによって得られる代表的な効果としては、次の三つが挙げられます。

・業務効率化
・業務精度の向上
・顧客満足度の向上

一つ目の業務効率化とは、前述の議事録作成や録音データの文字起こし、記入作業の自動化などに音声認識AIを用いることで、業務の省力化が期待されることです。その他、コールセンターでの活用は特に進んでおり、テキスト化した音声からオペレーターの応対の品質を分析したり、弱み洗い出したりするときなどにも利用されています。

二つ目の業務精度の向上は、例えば文字を記入する作業を人手ですることを考えた場合、長時間のタイピングの中ではどうしても打ち間違いや打ち漏れが発生することについてです。音声認識AIを用いた場合、もちろんある程度の認識間違いや変換ミスはあり得ますが、一定の精度向上が見込まれるほか、人の作業としては文章チェックに集中できるようになるというメリットが生まれます。

最後の顧客満足度の向上では、前述のコールセンターでの活用がまさにその例です。顧客やオペレーターの状態を音声から把握することができれば、さまざま業務品質に関するさまざまな改善点を発見し、顧客満足度の向上を目的とした施策の実施につなげることも期待できます。

音声認識の仕組み

以上のような効果が期待される音声認識AIは、簡単には以下のような仕組みで動作しています。

入力

AIもコンピュータの一種であることから、何かしらのデータの入力が必要になります。音声認識の場合の入力データは、人が発した音声です。まずは、マイクを用いて空気の振動を波形データなどに変換します。その後、周りの不要な声や環境音などのノイズを取り除くための処理を行います。

参考：エンジニアコラム『声や音を聞き分ける、『音源分離』とは』

テキストへの変換

入力データを処理したら、まずはその音声データを一つひとつの音として認識します。「せんせいこんにちわ」（※）という音声であれば、「せ・ん・せ・い・こ・ん・に・ち・わ」と、一つひとつの音ごとに文字データに変換する具合です。

（音を表記するため、ここでは「わ」と記載しています。以下も同じ）

その後、それぞれの音の並びを分析し、単語に変換します。上記の例の場合、「先生　こんにちは」と変換します。最後に、単語と単語のつながりを分析し、一つの文として認識します。ここで、「先生、こんにちは」という文をコンピュータが認識することになります。

音声認識AIを用いたサービスの普及状況

音声認識AIを用いたサービスは、AI活用の中でも非常に普及している分野の一つです。音声認識技術単体での活用はもちろん、後にご紹介する自然言語処理技術と組み合わせた技術が広く普及しており、ビジネス向け・コンシューマー向けどちらにもさまざまなサービスが登場しています。

ビジネス向けでは、音声認識技術を用いた自動文字起こしが挙げられます。これにより会議の議事録を効率よく作成する、音声によるメモをテキストに変換して残すなどの活用がされるようになっています。

コンシューマー向けでは、スマートスピーカーが代表的です。音楽の再生・停止を音声で操作できるほか、家電と接続することで照明やエアコンなどの操作を音声で行うことも今では珍しくなくなりました。

音声認識の代表的な技術

音声認識では、主に以下の四つの技術が用いられています。ここでは、その概要についてご紹介します。

音響分析

音響分析では、録音データを分析し、その音から音声認識に必要な情報を抽出してコンピュータが認識できるデータに変換します。音声認識AIは、生の録音データをそのまま認識できるわけではありません。人間は耳に入ってきた音から言葉を瞬時に認識し、無意識のうちに意味を理解していますが、コンピュータからすれば音声も環境音も同じ一つの音の波形としか認識できないためです。

音声認識で抽出する情報のことを、特徴量と言います。特徴量は、その名の通り、データ内にある特徴を抽出したもので、AIによる分析では欠かせない要素です。音響分析では、音の周波数、強弱、時間情報などが特徴量として挙げられます。例えば周波数のパターンを抽出することで、それが人間の音声なのか環境音なのかをコンピュータが認識できるようになります。

音響モデル

音響モデルでは、コンピュータがあらかじめ学習していた音や単語の情報と照らし合わせ、抽出した特徴量がどのパターンと整合するかを計算します。

例えば「こんにちわ」という音声があったとき、人であれば「こ」という音声を誰が発しようとも「こ」だと認識できます。しかし、実際には声帯や音の高低の差、前後の単語とのつながりにより音は変わっています。AIでは「こ」の音のパターンを学習することで、入力された音声「こんにちわ」の「こ」が「こ」であることを認識できるようになります。

発音辞書

発音辞書は、膨大な情報データベースの中から、音の組み合わせを抽出し、単語として認識する役割を持っています。「こ・ん・に・ち・わ」のそれぞれの音を認識したら、それらを組み合わせて「こんにちは」という単語として認識する要領です。

言語モデル

音響モデル・発音辞書で音や単語を認識したら、言語モデルによりそれらを組み合わせ、意味のある正確な文章として認識します。文章として認識するには膨大な量のデータを学習する必要がありますが、ここでよく使われるのが「隠れマルコフモデル」というモデル化手法です。

隠れマルコフモデルは文字、あるいは文字列の後に続く文字の現れやすさを確率で定義してパターン化するもので、音声だけに引っ張られず、文脈の通った文になるように音や単語をつなぎ合わせていきます。

ディープラーニング技術

ディープラーニング（深層学習）は、AI活用の在り方を刷新した技術として広く知られるようになった手法です。音声認識技術においても、ディープラーニングは標準技術になっています。

ディープラーニング以前の音声認識の音響モデルは、隠れマルコフモデル（HMM）の出力確率にガウス混合分布（GMM）を組み合わせたGMM-HMMが主流でした。しかし、2010年から2012年にかけて、大語彙連続音声認識タスクにおいて、ディープラーニングの適用により最大33%の性能向上が報告されました。これを受け、音響モデルの研究は急速に見直され、現在ではディープラーニングが音響モデルの標準技術として定着しています。
同技術の導入により、音声認識システムは多様な話者や環境に対する適応性が向上し、音声アシスタントや自動翻訳など、さまざまな応用分野での活用が進んでいます。

参考：日本音響学会誌「音声認識における深層学習に基づく音響モデル」

音声認識の難しさ

日本語特有の音声や表現に対応しきれない

音声認識に関する四つの技術で実現できることを触れてきましたが、身近にある音声認識サービスを使用していて、うまく認識されないと感じることがあるかもしれません。さまざまな原因があるため一概には言えませんが、日本語の音声認識は多言語と比べて難しい面があると言われています。

例えば、母音と子音の少なさが挙げられます。母音や子音が少ないと、同音異義語や似た発音の言葉が増えてしまい、認識した音をどの言葉に割り振ればよいのかコンピュータが判断しづらくなると言われています。この問題を解決するためには、コンピュータが参照する辞書を充実させていく必要があります。その一方で、この辞書を作るにも日本語には難しさがあります。英語をはじめとした多くの言語は単語と単語の間にスペースを開ける「分かち書き」がありますが、日本語はすべての文字を詰めて書くため、形態素解析と呼ばれる自然言語処理の一手間が必要であるといった課題があります。日本語はコンピュータに学習させるための工夫が特に必要とされるのです。

標準語以外の方言やスラングの認識に弱い

音声認識技術は近年大きな進歩を遂げていますが、標準語以外の方言やスラングの認識においては依然として課題が残ります。これは、音声認識システムが主に標準語を基に学習されているため、地域特有の発音や語彙、文法構造を持つ方言や、日常的に使われるスラングに対応しきれないことが原因です。
例えば、岩手県の方言を用いた音声をOpenAIの音声認識システム「Whisper」で解析した結果、標準語と大きく異なる発音や表現が多く、正確な認識が難しいことが報告されています。このような課題を克服するためには、各地域の方言やスラングを含む多様な音声データを収集し、システムに学習させることが必要です。

ただ、これらのデータの収集やラベル付けには多大な労力と時間がかかるため、一朝一夕に解決することは難しいとされています。現実的な解決策としては、地域ごとに特化した音声認識モデルの開発や、ユーザーからのフィードバックを活用した継続的なモデルの改良です。

参考：Qiita「音声認識AIのWhisperは方言を理解できるか」

発言者の識別が困難

音声認識システムにおける発言者の識別、話者識別も大きな課題になり得ます。話者認識は、幅広い応用可能性を有している技術分野であり、例えば音声アシスタントやセキュリティーシステムなどさまざまな用途で使われています。

会議やインタビューなど複数の話者が交互に発言する場面では、各発言者を正確に識別し、その発言内容を紐付けることが求められます。しかし、話者ごとの声の特徴や話し方の違いを正確に捉え、識別するためには、高度な音響分析と大量の学習データが必要です。また話者が変わるタイミングや、重複して話す場合の処理など、技術的なハードルも存在します。

これらの課題を解決するためには、音声認識と話者識別を統合したシステムの開発や、ディープラーニングを活用した高精度な話者識別モデルの構築が必要です。AI活用がうまくいけば、複数の話者が参加する場面でも、各発言者の識別と発言内容の正確なテキスト化が可能となり、より有意義な音声認識技術の活用が実現するでしょう。

参考：議事録総合研究所「AI音声認識の仕組みと技術からビジネスへの応用まで」

Laboro.AIでは、話者認識技術の発展を目的に、日本語話者の音声を収録した音声データセット「Laboro-ASV」の無償提供をしています。「話者ごとの発話数」が話者認識のためのデータセットの有効性を決定付ける重要な要素であると考え、Laboro-ASVをデータセットとして充実させることを目的に、出演頻度に基づいて話者を選択し、話者ごとに十分な発話量を確保しています。話者1人当たりの発話数は、同種のデータセットで一般的に100～200であるところ、それをはるかに上回る450超の発話数で構成されています。

詳しくはこちらをご覧ください。
日本語話者の音声を収録した話者認識用データセット「Laboro-ASV」を無償公開

音声認識と自然言語処理の関係

少し触れてきたように、音声認識AIは多くの活用シーンにおいて文字そのものの解析に特化した自然言語処理という技術の組み合わせで運用されています。

音声認識の領域は、録音データから人間の音声を抽出し、文脈の通ったテキストに起こすまでを指します。そのため、例えば、「『こんにちは』という挨拶に対して『こんにちは』と返す」といった命令に対してその操作を実行する技術は、テキストを意味のある文として認識・処理する自然言語処理の領域になります。

AIの各技術は単体ではサービスとして運用しづらいものも多いため、このようにマルチモーダルに技術を組み合わせることで便利なサービスとして活用される可能性が生まれてきます。

なお、音声認識や自然言語処理はAIの中でも「ディープラーニング」と呼ばれる技術の活用が注目される分野の一つです。ディープラーニングは、データに含まれる特徴をある種、自動的に学習することに長けたAIのネットワークです。構築に難しさがある反面、より精度の高い処理が期待できます。ディープラーニングに関しては、以下のコラムでご紹介しています。

Laboro.AIコラム：「AIと機械学習、ディープラーニング（深層学習）の違いとは」

音声認識AIの事例

ここでは、音声認識の技術を活用した実際の事例をご紹介します。

音声AI家電

音声認識を身近に体感できる最も分かりやすい例が、近年一般に普及している音声AI家電です。

音声アシスタント

iPhoneのSiriやGoogleアシスタントなど、スマートフォンには音声入力・会話システムが搭載されていることが当たり前になりました。これらは「VUI（Voice Use Interface）」と呼ばれ、音声を窓口としたユーザーインタフェースが一般にも浸透し、スマートフォンだけでなく、冷蔵庫や照明など、さまざまな家電の入力操作が簡略化されるようになっています。VUIについては、以下のコラムで詳しくご紹介しています。

Laboro.AIコラム：「『VUI』と、もっと大切な“UI”=Use Imagination」

スマートスピーカー

音声アシスタントを搭載した家電としてこちらも一般に行きわたり始めているのが、AmazonのAlexaやGoogleスピーカーに代表されるスマートスピーカーです。音声指示によって音楽再生やニュースの読み上げ、家電の操作などが可能になっており、今後さまざまなデバイスとの連携が期待されるところです。

クラウド環境で文字起こし

音声データをテキストデータに変換する文字起こしは、音声認識の活用としてポピュラーな分野の一つです。

従来は人間が音声を聞きながらタイピングで入力してテキストに起こす必要がありましたが、音声認識による文字起こしは高い精度でこれを代行することができます。もちろん100％の精度とは言えないため、正確なテキストデータが欲しい場合はその後に人力で編集する必要がありますが、最初から人力で入力するよりは全体の作業が効率化される場合や、「だいたいの内容が分かればいい」用途であれば高い効果を発揮します。

この技術を用いたサービスの例として、アドバンスト・メディア社の『ProVoXT（プロボクスト）』が挙げられます。これは文字起こしをクラウドにて提供するサービスで、所定の手順で録音したデータをアップロードすることでテキストデータを得ることが可能なサービスです。

出典：アドバンスト・メディア『ProVoXT』

自動応答で店舗予約を完了

音声認識と自然言語処理を組み合わせた技術として知られているのが、自動応答です。人間の発話を意味のある文として認識し、それに対する回答をAIが生成して返す技術は研究が進められています。

一例として、Googleが2018年に発表したレストランの予約などをAIが代行する『Google Duplex』があります。これは顧客がレストランに予約を入れる電話をすると、レストランのスタッフではなくAIが受け答えをしながら予約を完了するというサービスで、音声のリアルな合成技術も掛け合わせてまるで人間を相手に話しているかのように予約ができるようになっています。

Google Duplexも完璧ではなく、サービスのローンチ後はいくらかの割合で人間のオペレーターが代わって予約を受けていましたが、Googleは2020年10月15日、Google Duplexによる通話の99％がAIにより自動化されていると発表し話題になりました。

出典：TechCrunch Japan 2020年10月16日　グーグルの会話型AI「Duplex」がコロナ禍で300万件以上のビジネスリスティングを更新

リアルタイムに通訳

インバウンド需要の向上が今後見込まれることに伴ってニーズを増しているのが、リアルタイムに通訳を行うサービスです。音声認識と自然言語処理により発話の内容を分析し、多言語に通訳した上でテキストや音声で出力します。これにより、同じ言語で話せない人同士でもリアルタイムにコミュニケーションを取る端緒となっています。

一例として、85言語（74言語で音声・テキスト、11言語ではテキストのみ）に対応している通訳機「ポケトーク」があります。2022年からはスマホアプリも提供され、使い勝手が増しています。

出典：ポケトーク公式サイト

音声だけでなく音の認識も

これまで主に人の音声を対象に事例として紹介してきましたが、人の声を含めてすべて音は波形データとして取得されることから、動物の鳴き声、生活音、機械音など、さまざまな音を対象に音声認識AIの活用可能性を見いだすことができます。

動物の鳴き声を認識

その一例として、豚の鳴き声から感情を推測し、健康状態の監視を可能にしたという研究があります。この研究で分析に使用された音はほとんどが農場や商業施設で録られたもので、報告によればポジティブな鳴き声とネガティブな鳴き声を92％の正解率で予測できたとしています。今後の研究によっては、家畜の鳴き声から健康状態を管理する仕組みへと発展することや、ペットの感情予測などに応用されていくことが期待されます。

出典：allai.jp『AIが動物の鳴き声から健康状態を読み取る』

生活音・環境音、異常音を認識

生活音や環境音を認識してフィードバックし、聴覚障がい者に周囲で何が起きたかを知らせるという研究も進められています。玄関をノックする音や街中でのクラクション音など、生活の中にある音をAIによって把握した上で聴覚に頼らない方法で通知する仕組みが実現すれば、聴覚障がい者へのこれまでにない新たなサポートへとつながっていくはずです。

オーディオ機器「ONKYO」の技術を受け継いでいるオンキヨーは、音の解析技術とAI技術を組み合わせたシステムを開発しており、コマツと共同して異常音からエンジンの異常を検出するシステムの開発を行っています。通常の機械学習では、学習データとそれに紐づく正解ラベルが必要ですが、学習データに紐付く正解ラベルを必要としない方法を取っており、多大なデータを必要とせずに異常を検出することができるとしています。

出典：富士通『聴覚障がい者のインクルージョンを促進する環境音AI認識システムが、IAUD国際デザイン賞金賞を受賞』
　　　ドリームニュース「オンキヨー株式会社特許出願の発明「異常検出装置及び異常検出方法」公開のお知らせ」

音声認識AIの今後の課題

現在の音声認識技術には、入力速度が速い、操作性が高いという2つのメリットがあります。そのため、音声からテキストへの変換をほぼ遅延なく行うことができ、タイピングで起こすよりも速くタスクを完了することが期待できます。また、両手をフリーにしたまま音声で入力できるメリットもあり、デバイスやシステムの操作性も大きく高まることが期待されています。

一方で、日常会話によく現れるような人が意訳的に発する言葉を理解して返すことはまだ難しく、生活シーンで活用できるような技術に十分に発達しているとは言い切れません。今後さらなる技術進歩と精度の向上、新たなサービスの創出が期待されます。

音声認識AIはカスタムが必要な場合も

AIを用いた音声認識は高いレベルに達しており、さまざまなシーンでこの技術を活用したサービスが登場しています。しかし日常に溶け込んで人々が自然に利用するまでにはまだ大きなハードルがあると言えます。音声認識技術にはまだ伸びしろがあり、今後さらに人々の生活を豊かにするサービスが誕生してくることが期待されます。

しかし、企業への導入を考えた場合、そもそも上に紹介したようなパッケージ型のAIソリューションでは対応が難しい場合も少なくありません。例えばその企業独自の専門用語や業界用語などを認識させたいようなケースはその一つです。あるいは、専門性を伴うような業務プロセスへの導入・運用を考える場合も汎用的なプロダクトでは対応できない可能性があります。

こうした場合には、オーダーメイドによる音声認識AIモデルの開発を検討することも必要になってくるはずです。Laboro.AIでは、『カスタムAI』の開発を特徴に、ビジネス課題に合わせたAI導入を入念なコンサルティングを踏まえて支援しています。自社独自のAI開発の検討が必要になった際には、ぜひご相談ください。

執筆者

執行役員マーケティング部長　和田崇

立教大学大学院経営学修士（マーケティング論・消費者行動論）。立教大学大学院ビジネスデザイン研究科博士後期課程中退。KDDI株式会社に入社、コンシューマ向け商品・サービスのクロスメディアによるプロモーション施策の立案・企画運営に携わったのち、全国漁業協同組合連合会を経て、2019年にLaboro.AIに参画。マーケティング／ブランディング業務に従事する傍ら、NewsPicksプロピッカーとして活動するほか、日経クロストレンドなどメディア寄稿多数。