TOP
に戻る

⾳声認識

Voice recognition

⾳声認識

Voice recognition

音声認識とは、人間が発する声(音声)をコンピューターに認識させる技術のことで、スマートスピーカーなどの普及により、一般的にも広く知られるようになりました。

音声認識技術の研究自体は古くから行われていますが、実用化され始めたのは1990年代頃からで、主にゲームなどで活用されました。2010年代になると、「Siri(Apple)」や「Googleアシスタント」が登場し、さらに2014年にはAmazonのスマートスピーカー「Amazon Echo」が登場したことで、音声認識は急激に広く知れ渡りました。AIによる音声認識の進化により、声だけで機械を操作したり、会議の議事録を効率的に作成するといったことが実現され始めたのです。
ビジネス分野においては、1990年代後半にIBMが発表した音声認識ソフトウェア「via voice」で、音声入力や音声コマンド操作ができるようになりました。ただ、日本語の複雑な構造のせいで、英語と比べると認識率の向上が困難であったため、当時はそれほど普及しませんでした。ところが近年、AI(人工知能)によるディープラーニングの大幅な進化に伴い、音声認識技術の精度が飛躍的に向上しており、現在ではコールセンターなどでの活用が急速に進んでいます。
現在では、音声認識技術は一定品質の音声であれば認識率90%を超えるまでに進歩しており、人間の音声認識能力と同等レベルとまで言われています。画像認識と並び、社会実装が進んでいる技術のひとつなのです。
音声認識技術では、人間が話した声(言葉)を、音として認識・測定し、その波形データを解析して文字とパターンマッチングしてテキストに変換します。
マイクから入力された音声信号を分析し、その信号のどの部分にどのような音素(「あ」、「い」、「う」といった音声の単位)があるかを確認しつつ、何と発音されたのかを推定します。また、ある言葉の次にどのような単語が続きやすいのかなど、日本語としての単語連鎖の情報も併用して認識します。つまり、音声の音としての特徴と、音声に含まれる言語的な特徴の両方を活用して認識しているのです。とはいえ、音声信号には境界がなく、いくつの音素が含まれているのか、どこからどこまでが何の音素なのかを判別するのが難しいため、膨大な数の可能性を検証しつつ正解を導き出す必要があります。
音声認識AIは様々な企業で導入されていますが、音声認識AIによって得られる代表的な効果としては、次の内容が考えられます。

(1)業務効率化

議事録作成やテープ音声の文字起こし、記入作業の自動化などに音声認識AIを活用することで業務省力化が実現できます。その他、コールセンターでの活用も進んでおり、テキスト化された音声の内容からオペレーターの応対品質を分析したり、ウィークポイントの洗い出しなどにも活用されています。

(2)業務精度の向上

記入作業を人手でやることを想定した場合、長時間のタイピング作業になると、どうしても打ち間違いや打ち漏れが発生してしまいます。一方、音声認識AIを用いた場合、もちろんある程度の認識間違いや変換ミスは想定されるものの、一定の精度向上が見込まれるほか、作業者は文章チェックに集中できるようになるといったメリットが得られます。

(3)顧客満足度の向上

コールセンターの活用がまさにその例ですが、音声でのやりとりの内容により顧客やオペレーターの状態を把握することができれば、業務上の様々な品質の改善や、顧客満足度を向上させるような施策の発見に結びつけることも期待できます。