
画像認識AIの世界。その仕組みと活用事例
2021.3.12公開 2025.2.26更新
株式会社Laboro.AI 執行役員 マーケティング部長 和田崇
リードマーケター 熊谷勇一
概 要
人間の知能を模した機能をもって高度なコンピュータ処理を行う技術、AI。AIはさまざまな領域で活用が進められており、特に進歩が著しい技術が機械学習と呼ばれる技術領域であり、その中でもビジネス活用が積極的に進んでいるのが画像認識の分野です。機械学習による画像認識の仕組みや活用事例などについて解説します。
目 次
・画像認識AIの仕組み
・画像認識とは
・画像認識の進化
・画像認識ネットワークの進化
・画像内の顔を認識する方法
・画像認識の流れ
・データの収集
・モデルの定義
・検証
・ディープラーニングを用いた画像認識
・ニューラルネットワークとディープラーニング
・ディープラーニング × 画像認識
・画像系AIの進歩
・画像生成
・物体検出(物体検知)
・異常検知
・顔認証
・文字認識
・画像認識AIのビジネス活用例
・航空写真からの停止線・横断歩道の検出
・動画解析からの感情推定
・インフラ設備の劣化箇所検出
・顧客の行動や属性を分析して店内を最適化
・製造ラインでの不良品検知
・AIドローンによる低農薬農法
・日本の長大な海岸線を抽出
・顔認証で「手ぶら」で乗れる乗車システム
・さまざまに進化する画像認識AIの世界
画像認識AIの仕組み
AIの技術領域の一つである機械学習は、ディープラーニングや画像分野での大きなブレークスルーがあったことから、特に画像認識の領域で力を発揮しています。
画像認識とは
機械学習を用いた画像認識は、読んで字のごとく、画像内に写っているものが何かをコンピュータに認識させる技術です。
コンピュータは通常、画像をピクセル(画素)の集まりとしてしか認識できません。しかし、その画像には人や動物の姿、イラスト、文字など、必ず何かしらの情報や意味が含まれています。コンピュータは組み込まれた演算処理を通して、ピクセルのパターンから特徴を抽出し、その類似の範囲や差異を学習することでそこに写ったものを認識し、識別、分類などの処理を行えるようになります。

画像認識の進化
画像認識の技術自体は新しいものではなく、さかのぼれば1960年代に登場した「バーコード」も画像認識の一つです。バーコードは日本では1972年に導入され、スキャナによってバーコードの太さやパターンを認識し、商品情報を読み取るための技術として国内での活用が始まりました。また、写真や画像の中にあるものを判定する技術としては、「テンプレートマッチング」と呼ばれるものがあります。これはテンプレート画像を用意し、これと一致するものが該当の画像の中にあるかないかを判定するという技術です。
時を経てディープラーニングなどの機械学習技術の進化が進んだ現代、よりコンピュータが対象物の特徴を正確に把握するためのさまざまな方法が確立され、画像認識は飛躍的に活用の機会を広げています。
画像認識ネットワークの進化
画像認識の技術は2015年には人の認識能力を超えたと言われていますが、ディープラーニングベースの画像認識に用いられるAIのネットワークにも種類があり、それぞれ精度や速度に関わる処理方法や処理能力が異なります。画像認識で発端的なアルゴリズムとしてよく紹介されるものが「畳み込みニューラルネットワーク(CNN: Convolutional Neural Network)」で、さらにそのルーツは日本人研究者・福島邦彦氏が1982年に発表した「ネオコグニトロン」というネットワークであると言われています。
CNNによるディープラーニングが大きく注目されることになったのは2012年のことです。ILSVRC 2012という国際的な画像認識コンペティションで、今では「AI BIG5」の一人に挙げられる研究者ジェフリー・ヒントンが開発したCNNを採用したAlexNetというモデルが、他の競合を大きく引き離す前代未聞の実績を残したからでした。CNNはその後、進化版として登場したLeNet、R-CNN、Fast R-CNN、Faster R-CNN、Google Net、Res Netなど、さまざまな画像認識ネットワークの元祖的なものとして位置づけられています。
画像内の顔を認識する方法
画像認識の活用例の一つとして、カメラの映像から人の顔を認識する活用例があります。画像から人の顔を認識する技術は、従来からカメラのオートフォーカス機能などにも使用されていますが、AI技術の発展によってその精度は現在も向上を続けています。
コンピュータが人の顔を認識できるようになるには、画像の中にあるピクセルの色や組み合わせから「人の顔」のパターンを学習する必要があります。人の顔を構成するピクセルのパターンを大量に学習することで人の顔の特徴を覚え、画像の中から顔を認識できるようになっていきます。

画像認識の流れ
画像内に写ったものを認識する際、以下のような流れで処理が行われます。例として、文字を認識する場合を考えてみます。
まず、画像内には認識を行うAIにとって邪魔になる要素が多く含まれます。そのため、ノイズや背景などを除去し、より正確に、精度高く認識結果が得られるよう前処理が施されます。
次に、AIが「文字らしい」部分の特徴を抽出し、予想される文字情報の特徴と照らし合わせます。その特徴が一致すれば、その文字として認識し結果として出力します。一方、一致しない場合には、別の文字の可能性を予測して照合を行う、あるいはどの文字にも一致しなければ文字として認識しない、というように処理を繰り返し、文字や言葉、文章を認識していきます。

データの収集
画像認識AIを構築する際、最初のステップとして大量の学習用画像データを収集することが不可欠です。AIに多様な画像を学習させることで、認識精度が向上します。
収集するデータは、認識させたい対象物やシーンに関連するもので、かつ多様な条件下で撮影されたものが望ましいです。例えば、異なる角度、照明、背景、解像度などのバリエーションを含む画像を集めることで、AIモデルはより一般化された特徴を学習できます。また、学習させるデータの質も重要で、ノイズや不適切なラベルが含まれないよう注意が必要です。
参考:weel「画像認識技術の仕組みや活用法を徹底解説!AIを活用した技術や導入方法などを詳しく説明」
モデルの定義
データの収集と前処理が完了したら、次に行うのがモデルの定義です。これは収集したデータを基に、どのようなアルゴリズムやネットワーク構造を用いて画像認識を行うかを決定するプロセスです。一般的にディープラーニングの手法が用いられ、中でも畳み込みニューラルネットワーク(CNN)が画像認識に適しているとされています。
モデルの定義では、層の数や各層のニューロン数、活性化関数、最適化手法など、多くのハイパーパラメータを設定します。これらの設定は、モデルの性能に大きく影響するため、タスクの特性やデータセットの性質を考慮して慎重に行わなければなりません。
また過学習を防ぐための正則化手法や、学習の効率を高めるためのバッチ正規化などの技術も取り入れることが重要です。
参考:Locus Journal「画像認識AIモデル構築の流れとおすすめライブラリ9選」
検証
モデルの定義と学習が完了した後、次に行うのが検証です。これはモデルが新しいデータに対して、どの程度正確に予測できるかを評価するプロセスです。一般的に、データセットを学習用と検証用に分割し、学習に使用しなかったデータでモデルの性能を測定します。
評価指標としては、精度、再現率、F値などが用いられ、タスクの特性に応じて適切な指標を選択します。また混同行列を用いて、モデルがどのクラスで誤分類しやすいかを分析することも有効です。
検証の結果、モデルの性能が期待に達していない場合は、データの見直しやモデルの再定義、ハイパーパラメータの調整などを行い、再度学習と検証を繰り返します。
参考:AISIA-AD「画像認識AIの精度を上げるテクニック【中級者向け】」
ディープラーニングを用いた画像認識
機械学習の中でも、より高度な学習が行える技術がディープラーニング(深層学習)です。ディープラーニングは、ニューラルネットワークと呼ばれるアルゴリズムを用いた学習手法です。
ニューラルネットワークとディープラーニング
ニューラルネットワークは、人間の脳内にある神経回路「ニューロン」の仕組みに着想を得て開発された機械学習アルゴリズムです。入力層、中間層、出力層の3層で構成されるニューラルネットワークに対して、中間層の数を増やし、多層化した仕組みを持たせることでより高度な処理を可能とする学習手法が、ディープラーニングです。
しかし、ニューラルネットワークをベースとするディープラーニングは、確かに一般的な手法よりも高度な処理を実現する一方で、やはり高度な計算処理に耐え得るだけのマシンパワーも必要となります。

ディープラーニング × 画像認識
「教師あり学習」に代表される一般的な機械学習の手法では、画像データを学習する際、コンピュータが「どの特徴に着目して学習すればよいか」を示す特徴量を人が指定する必要があります。一方、ディープラーニングではこの特徴量を半自動的に抽出するため、人手による手間を省きつつ、また、人では気付かないような特徴点を見つけ出す可能性も秘めています。なお、ディープラーニングについては以下のコラムでも紹介しています。
Laboro.AIコラム:「AIと機械学習、ディープラーニング(深層学習)の違いとは」

画像系AIの進歩
ディープラーニングをはじめとしたAI技術を用いることで、画像分野では次のようなことが可能になってきています。
画像生成
十分な量と質のデータを学習させることで、AIに新しい画像を生成させるといったことも実現されています。なかでも近年話題となったアルゴリズムの一つが、GAN(Generative Adversarial Networks:敵対的生成ネットワーク)です。
GANは生成モデルの一種で、データから特徴を学習することで、実在しないデータを生成したり、存在するデータの特徴に沿って変換したりといったことを得意とします。GANはそのアーキテクチャの柔軟性から、アイデア次第で広範な領域に摘用できるため、応用研究や理論研究も急速に進んでおり、今後のさらなる活用が期待されています。
例えば、実際には存在しないCMタレントの画像・映像を生成したり、手書きの線画から着色を施したり、そのほか、写真をアニメキャラクターに変換する、低画質な画像を高画質化するなど、さまざまな活用事例が生まれています。
なお、AIによる画像生成ですが、こちらも昨今話題になった「ディープフェイク」のように、悪意さえあれば実在する人物が動いたり話したりしている架空の動画を作成することも原理的には可能で、その扱いには十分な注意とモラルが求められます。

引用:”Generative Adversarial Networks“
物体検出(物体検知)
厳密には画像認識という技術は、あくまで画像内にある特定の対象物が「そこにある」と、その存在を認識するまでの技術領域を言います。一方で、画像の中から「そこに、○○がある」と特定の物を見つけ出す技術は、物体検出(物体検知)と呼ばれます。
つまり、人間であれば見ている画像から物の位置とそれが何であるかの判断が即座に行えますが、コンピュータにとっては、認識することと検出することは別のプロセスであり、分けて実行する必要があるということです。
市場への普及が期待される自動運転車でも、AIによる物体検知が非常に重要な役割を担っています。自動車に搭載されたカメラから周囲の状況を撮影し、その映像中に映る標識や障害物、人などの物体を認識・検出し、さらにそれらに対応すべき適切な操作を瞬時に判断することができてはじめて、自動運転車が現実のものへと近づいていくからです。

異常検知
画像系AIは、工場などの製造現場での異常の検出・検知にもよく利用されています。例えば、ライン上で製造している製品の正常な状態、異常な状態の画像データを大量にAIに読み込ませ、相互の共通点や相違点などを比較分析し、パターンを学習することで、撮影した画像や映像から不良品や損傷箇所を検出し、品質の向上に役立てることも期待されています。
物体検出や異常検知を活用した当社事例としてこちらもご覧ください。
顔認証
顔認証技術は、個人の顔の特徴を解析し、本人確認やアクセス制御などに利用される生体認証の一種です。ディープラーニングの進歩により、顔認証の精度と速度が飛躍的に向上しています。最近では、運転免許証など身分証明書書類の写真とセルフィー画像を照合する技術を活用した、オンライン認証やリモートKYC(Know Your Customer)手続きが重要な役割を果たしています。
ただ、IDドキュメントの写真とセルフィー画像の間には、解像度や照明条件、表情の違いなど、さまざまなギャップが存在する課題を抱えている問題もあります。これらのギャップを克服するために、DocFace+のような手法も採用されるようになってきました。
DocFace+は、動的重み付け手法を用いて、IDドキュメントとセルフィー間の特徴量の差異を効果的に学習し、高い照合精度を実現するものです。このような技術革新により、顔認証システムは多様な環境下でも高い信頼性を実現しています。
参考:Cornell University「DocFace+: ID Document to Selfie Matching」
文字認識
OCR(光学文字認識)は、画像内の文字情報をデジタルテキストに変換する技術です。紙媒体の文書をデジタル化し、データの保存、検索、編集を容易にするために広く利用されています。
近年、AIや機械学習の進展により、OCRの精度と適用範囲は飛躍的に向上してきました。例えばAIを活用したOCRは、手書き文字や多様なフォント、さらには複雑なレイアウトの文書でも、高い認識精度を実現可能です。従来よりも多様なビジネスプロセスの自動化、業務効率の向上が可能となり、幅広い業界で活躍しています。例えば、金融機関での申請書処理や、医療分野でのカルテ管理などです。
AIを用いたOCRは、従来のルールベースのシステムと異なり、学習を通じて新たな文字パターンや言語にも柔軟に対応できる点も大きな利点です。
参考:smartOCR「OCRとは文字認識技術のこと!メリット・活用事例・AIとの違いを解説」
画像認識AIのビジネス活用例
AIを用いた画像認識技術は、実際にさまざまなビジネスシーンで活用されています。
航空写真からの停止線・横断歩道の検出
カーナビや地図アプリに必要なデジタル地図データには、建物や店舗、道路情報、道路標識などの交通情報を網羅することが求められますが、このデジタル地図データの開発にも画像認識AIが用いられています。
一般的なデジタル地図データの開発は、担当者が現場の写真を細かく目視で確認し、交通情報を記録・更新するといった手作業で支えられており、膨大な工数が必要になります。そこでディープラーニングによるAIを用いてコンピュータに航空写真を分析させ、停止線と横断歩道を検出するといった試みが行われています。
もちろん停止線と横断歩道だけではすべての交通情報を網羅することはできません。しかし、膨大な作業工数を考えると、一定の業務効率化につながるだけでなく、人為的な抜け漏れのミスを避けられるようになることが期待されています。

動画解析からの感情推定
画像と言うと一般には静止画を指すことが多いでしょう。しかし動画もたくさんの静止画を連続して表示することによって見せる構成になっており、そのAI活用も静止画のそれと関連があります。動画に比べると静止画の方がAI活用が進んでいますが、動画での技術開発も進められています。
例えば、動画に映っている人の表情や動作から感情を推定するための研究開発の事例もあり、こうした技術の精度が高くなれば、対話型システムをはじめとしたさまざまなサービスに活用されることが期待できます。
参考:動画解析からの感情推定

インフラ設備の劣化箇所検出
インフラ設備を保有する企業にとっては、経年によって発生する設備の劣化は大敵です。ある大手インフラ企業では、それまで人の目視で実施していた劣化箇所の確認作業に、ディープラーニングを用いた画像検出技術を導入し、人の作業や判断をサポートするツールとして役立てています。

顧客の行動や属性を分析して店内を最適化
小売業で画像認識AIを活用した例として、店舗に来店した客がどのように行動したかを分析し、マーケティングに生かせるデータとして活用する試みが行われています。
具体的には、店舗内に複数のネットワークカメラを設置し、来店者の性別や大まかな年代、どのような動線で店内を移動したかなどを画像から解析する取り組みです。さらに、POSデータや会員情報、天候情報、商品棚に設置したセンサーからのデータ、外部データとの連携によって、より詳細な顧客分析をする例も生まれています。
こうして得られた分析結果は、商品棚や陳列レイアウトの変更や、来店者の属性データを加味した商品ラインナップの拡充、また運営面でもシフトの最適化や防犯対策などに活用されることが見込まれています。

製造ラインでの不良品検知
製造業では、不良品の発見で画像認識AIが活用されています。従来、工場の検品作業は人が目視で行うことが通常でしたが、最近ではAIを活用して自動化する取り組みも増えています。
AIを活用することでチェック漏れなどのヒューマンエラーの低下や、不良品の発見精度の向上といった効果のほかに、働き方改革で作業員の負担を減らす目的からも導入が進められています。
具体的には、工場の製造ラインにカメラを設置、製品を撮影し、学習済みのAIによって不良品を判別するという適用の仕方が代表的です。その判別方法はさまざまですが、不良品と判別されたデータを教師データとして学習させ、それ以外を良品と判別する方法や、ディープラーニングで良品のみを学習し、それ以外を不良品と判別する方法などもあります。個体差があるため、良不良の判別が難しい面もある一方で、熟練者のノウハウを伝承する手段として一層の活用が期待されています。

AIドローンによる低農薬農法
AI搭載ドローンによる画像認識により、害虫や虫に食われた葉の位置を特定し、必要な箇所に必要な量の農薬を散布するといった活用も行われています。
害虫のいる箇所にピンポイントで散布できることから、本来であれば撒く必要のない農薬を削減することになり、また農薬を散布する人手も削減できるなど、コストカットに貢献することが期待されています。
さらに“低農薬”は、農産物にブランドとしての付加価値ももたらしており、低農薬農法で栽培した農産物が「スマート枝豆」や「スマート米」として一般的な農産物よりも高値で取引されています。

日本の長大な海岸線を抽出
政府は、日本各地で広がる海岸浸食を食い止めるため、人工衛星やドローンで撮影した画像をAIで分析する観測システムの導入に乗り出します。日本の海岸線の総延長は約3万5000kmで世界6位の長さです。温暖化による海面上昇の影響などで全国的に海岸浸食が進行していますが、海岸線が長いことで観測や管理に多大なコストがかかることが課題です。そこで、新たなAI観測システムを構築して、衛星画像やドローンが撮影した上空写真などを取り込み、システムが自動的に海岸線を抽出することを狙っています。
出典:読売新聞「総延長が世界6位の日本の海岸線、ドローンやAIで画像分析…防災利用へ自治体と連携」
顔認証で「手ぶら」で乗れる乗車システム
丸紅と熊本市交通局は、乗客が路面電車に設置されたタブレット端末に顔をかざすと約2秒で運賃の決済が完了するサービスの実証実験を始めました。熊本市内を走る路面電車の約2割に顔認証システムを組み込んだタブレット端末を設置、利用者は事前に決済アプリをダウンロードし、顔認証を登録すると「手ぶら」で交通機関を利用できるとしています。
出典:日経産業新聞「丸紅、地方交通で顔認証決済 熊本市の路面電車で実験」
さまざまに進化する画像認識AIの世界
画像認識技術は日進月歩で進化しており、ここでは紹介し切れないほどの多様な活用事例が誕生しています。その効果としても業務効率化やコスト削減、商品・サービス品質の向上、付加価値の創出などさまざまです。
一方で、技術開発に関する専門的知識がないままプロジェクトに取り掛かってしまったり、「とりあえずAI使いたい」という目的のないDXが推進されてしまったりと、結果として目的と手段が逆転し、ビジネス上で何の価値も生み出さないAI導入プロジェクトが後を絶たないことも実際です。進化が著しい華やかな先端技術であるからこそ、その限界を知り、どのようにAI技術をビジネスオペレーションに適用させるかを徹底的に考え抜くことが、AI導入プロジェクトの成否を握っています。ビジネスに価値あるテクノロジー活用に向けてAIの導入をお考えの方は、ソリューションデザインを強みとするLaboro.AIへ、ぜひご相談ください。
執筆者
執行役員 マーケティング部長 和田 崇
立教大学大学院経営学修士(マーケティング論・消費者行動論)。立教大学大学院ビジネスデザイン研究科博士後期課程中退。KDDI株式会社に入社、コンシューマ向け商品・サービスのクロスメディアによるプロモーション施策の立案・企画運営に携わったのち、全国漁業協同組合連合会を経て、2019年にLaboro.AIに参画。マーケティング/ブランディング業務に従事する傍ら、NewsPicksプロピッカーとして活動するほか、日経クロストレンドなどメディア寄稿多数。
マーケティング部 リードマーケター 熊谷勇一
中央大学文学部卒業、北陸先端科学技術大学院大学情報科学研究科博士前期課程修了。日本経済新聞社など日経ブランド企業で16年、雑誌、書籍、ウェブサイト、動画などの編集・執筆を手掛けた後、2022年からLaboro.AIに参画。



