音声認識、時代の主流へ AIの活用で開かれる未来とは

西日本新聞 オピニオン面 塩田 芳久 具志堅 聡

 基本の「き」から、人工知能(AI)のことを知る企画「AIのある未来へ」。今月は音声認識に注目した。スマートフォンに検索したい言葉を話し掛けると、即座に結果を表示してくれる機能。あれはどうやって、言葉をコンピューターに理解させているのか? 音声認識とAIが結びつくことで、どんな未来が開けるのか? そんな疑問を九州工業大生命体工学研究科の佐藤寧(やすし)教授(音響工学)にぶつけてみた。

 声を掛けると自然な答えが音声で返ってくるスマホのアプリや、スマートスピーカー(☆1)が普及してきた。音声による機器の操作のメリットは?

 「コンピューターの操作はキーボードによる入力、マウスでのクリック、画面へのタッチなどで行っているが、音声はこれに続く新しい手法として注目されている。しゃべるだけで検索ができるため、スピーディーで、小さな子供や高齢者にも使い勝手がいい。音声を認識する精度が上がれば、次の時代の主流となってゆくだろう」

 音声認識はどのような仕組みか。

 「人が『あ』と発音するときも、『ん』と発音するときも口の形や舌の動きは誰もが同じ。口の中で反響する音をマイクが拾い、周波数の波形として捉えて、その音が何なのかをコンピューターが判断する。『私は天神へ行く』と話したとき、個々の音を分析し、『wa・ta・shi・wa・te・n・ji・n・e・yu・ku』という音声の最小単位『音素』の連なりに整え、意味の通る文章にするのが音声認識のプロセスだ」

 ●特定にAIが活躍

 「音素を特定するためにAIが活躍している。音声認識を行うコンピューターは、大量のサンプルデータを持っている。『あ』の発音も『ん』の発音も人は皆同じとはいえ、話し手の性別や周辺の環境によって音の高低や周波数の波形に差が生じる。その差をAIがサンプルデータを参考にして補い、『今の音は何だったか』を特定する精度を高めているのだ。『てんじん』を『ちぇんじん』と発音としても、ちゃんと『天神』と補正してくれる可能性は高い」

 音声データだけで正しい文章ができるのか。

 「音声データだけで音素の連なりが何を意味しているのか、正確な文章に『変換』するのは限界がある。そのため、テキスト(文章)データを集めた『言語モデル』を併用する。言語モデルでは、ある言葉の次にどんな言葉が続く確率が高いのか、統計的に示してくれる。例えば『わたしはいしである』という文章で、AIが『わたしは』に『私は』が適合すると判断したとする。すると、それに続く『いし』が高い確率で『医師』であると絞り込んでゆく。コンピューターは言語モデルを基に、この文脈では『いし』が『石』や『意志』である確率が低いと学習しているからだ。こうしたAIの深層学習(ディープラーニング、☆2)が普及したことで、音声の認識率は日に日に高くなっている」

 ●電話応対にも活用

 スマホの音声認識アプリやスマートスピーカーのほか、音声認識を使った身近な機器は?

 「車のカーナビゲーションで、音声認識を使っているものがある。『博多駅へ行きたい』と話し掛けると、カーナビのコンピューターがどんなコマンド(命令)なのか判断し、目的地を設定する。『高速道路を使いたい』『近くのガソリンスタンドは?』などの呼び掛けにも、コマンドリストの中から適合するものを選んで対応してくれる」

 「金融機関のコールセンターでも音声認識は活用されている。お客さんからの問い合わせを聞き取って、どんな情報を知りたがっているのか、AIがオペレーターの端末画面に回答マニュアルを即時に表示するのだ。オペレーターは膨大な回答マニュアルの中から、該当するものを探し出す必要がなくなり、対応のスピードアップにつながっている。またAIはNGワードを記憶している。例えばお客さんに『絶対にもうかります』と説明したとき、オペレーターに注意し、後で訂正するよう促すこともやっている」

 ●心拍も音として

 音声認識の活用の場は今後も広がりそうだ。

 「コンピューターによる翻訳、機械翻訳も音声認識を活用すれば、外国の人とのスムーズな会話ができるようになるだろう。AIによる機械学習で、機械翻訳はかなり流ちょうになっている。車の自動運転も、音声で指示が出せるようになるだろう」

 「現在、人の心拍や血流を音として認識する研究を行っている。これも音声認識である。例えば車のドライバーの体調が急変したとき、センサーが心拍の異常を『音声認識』し、自動運転に切り替える。すぐに安全な場所に停車したり、近くの病院を探して急行したりする。AIの進化とともに音声認識の可能性は広がり、重要性も増していくはずだ」 (塩田芳久)

 ●注釈
 ☆1 人工知能(AI)によって人の言葉を理解し、検索結果の読み上げや音楽の再生、家電製品の操作などができるスピーカー型の家庭用端末。グーグルの「グーグルホーム」、米アマゾン・コムの「アマゾンエコー」などが代表。
 ☆2 コンピューターによる機械学習の一つ。人間の脳神経回路のように多層的に情報処理を行い、コンピューター自身がデータに含まれる特徴を捉え、より正確で効率的な判断をする技術。

PR

社会 アクセスランキング

PR

注目のテーマ