存在感増す「画像認識」お手本蓄積し特徴発見

 社会に浸透してきた人工知能(AI)の中で、近ごろ存在感を増している技術は画像認識ではないだろうか。デジタルカメラの顔認識機能やインターネットの画像検索などが身近な例だが、農業や医療の分野でも活用が広がっている。コンピューターはどうやって画像データを分析しているのか? 最先端の技術は? 九州大大学院システム情報科学研究院の内田誠一教授に聞いた。

 画像認識の仕組みを分かりやすく教えてください。

 「人間の目と脳の代わりをコンピューターにやってもらうのが画像認識だ。基本的には、お手本となる画像をコンピューターに覚えさせておけばよい。その後で『これ何だ?』と新しい画像を差し出すと、コンピューターは覚えているものの中から一番近い画像を探し出して『これではないか』と答えてくれる」

 コンピューターはどうやって画像を“見る”のか?

 「実際の作業はコンピューターのプログラムにJPEG(☆1)などの画像ファイルを入力することだ。画像ファイルは最小単位の1画素(ピクセル)ごとに情報を持っている。500万画素の画像ファイルでは、500万個の情報を読み込んでいるわけだ」

 かなりの精度が期待できそうだが。

 「弱点もある。コンピューターが全く見たことがないものは認識できない。また変化にも弱い。久しぶりに友達と会ったとき、人間であれば、以前と髪形やメークが違ってもすぐに友達と認識できる。しかしコンピューターにとって認識は難しくなる」

 「その難しさを克服するために何十年と研究が続いている。ようやく最近、機械学習が進化し、大量のデータが集まるようになり、コンピューターの処理能力が高まったことで画像認識の性能がどんどん上がっている」

 ●大量データから区別

 機械学習の進化で、どんなことが可能になったのか。

 「どこに注目すればうまく認識できるかを、コンピューターが自ら見つけてくれるようになった。例として犬と猫の画像認識を考えよう。画像のどこをどのように見れば両者の区別ができるかが鍵となる。従来は専門家が『こういう特徴を見たらいいのでは』と試行錯誤していた。これに対し、機械学習のホットな手法であるディープラーニングで『ここを見て区別しよう』と提案してくれる」

 コンピューターはどのように特徴を決めているのか?

 「まさに機械が学習して決めている。具体的には大量の犬と猫の画像例を蓄積して、それらを相互比較しながら最も犬(猫)らしい特徴や、犬と猫の差が最も出やすい特徴を自動的に探し出している」

 「この機械学習のプロセスは、人間の学習のプロセスとよく似ている。幼児は最初、犬と猫の見分けがつかないが、多数見るうちに見分けられるようになる。その際、鼻や耳の形がこうだからなどと指示されなくても、いつの間にか犬と猫を区別できるようになる。人間がこのように経験から答えを導くように、コンピューターも膨大なデータから必要な特徴量(☆2)を発見し、正確にモノを見分けられるようになっている」

 コンピューターとは「計算機」のはずだが。

 「その通りで、特徴を見いだすのも計算により行っている。第一にベクトルの計算が重要だ。高校でベクトルを学んだと思うが、あれは2次元(平面)ベクトル。画像を対象とした機械学習では数万次元のベクトルの計算が必要になる。他にも行列や微積分の計算もしている」

 身の回りにある画像認識で話題となっているものは。

 「キュウリやトマトの出荷で、サイズや形などの分別を画像認識の技術を使って行っているニュースを見た人がいるだろう。あれは膨大な画像をコンピューターに覚えさせて分別に活用している。医療分野でも眼科や皮膚科、内視鏡などさまざまな診断での利用が検討されている。例えば糖尿病性網膜症の診断ならば、眼底写真を画像認識した結果と、医師判断を組み合わせることで、精度の高い診断が可能と報告されている」

 ●写った場面まで分析

 画像認識の最前線は?

 「1枚の写真にどんな場面が写っているのか、分析できるようになった。宴会の写真を入力すると、イベント、食事、群衆などその写真を構成するキーワードが現れ、何の写真なのか説明してくれる。そこに写っている人の表情も楽しいのか悲しいのか、怒っているのか驚いているのか分析して表示できる」

 「先に犬と猫を区別する例を述べたが、現在の技術はもっと進んでいる。物体検出システム『YOLO9000』はシベリアンハスキーやジャーマンシェパードなど犬の種類まで見分けられる。このシステムは9000種類の物体が検出できると話題を呼んだ」

 「画像認識の研究は日進月歩。画像認識を扱う画像情報学は理工系だけでなく、人文系分野ともコラボレートしている。研究の幅はこれからも広がってゆくだろう」(塩田芳久)

 ▼うちだ・せいいち 1967年生まれ、北九州市出身。博士(工学)。2009年より現職。九大数理・データサイエンス教育研究センター長も務める。

 ●注釈
 ☆1 画像データの圧縮ファイルの一形式。デジタルカメラの撮影画像などで広く使われている。
 ☆2 コンピューターが学習するデータに、どのような特徴があるかを数値化したもの。実態はベクトル値(複数の数字の組)。

関連記事

PR

開催中

映像シアター

  • 2021年7月17日(土) 〜 2021年7月29日(木)
  • 福岡市保健環境学習室 まもるーむ福岡

PR