京都大学河原達也教授の音声認識がもの凄かった

去る10月26日、NHK教育テレビの「ろうを生きる難聴を生きる」を偶然みました。そこでは、京都大学の河原達也教授による「音声認識技術のノートテークへの適用」が紹介されていました。河原先生が話すと即座に音声認識されてスクリーンに文字が表示されるのですが、驚いたのはその認識精度の高さでした。全く普通の話し方で、見たところ完璧に認識されていたのです。

音声認識技術で、聾者が授業に参加できる

「ノートテイク (Note-take）」とは「大学などでの講義で聞こえる人が聞こえない学生の隣に座りノートを取ること」だそうです。聾者にとっては聴覚情報は摂取不能ですから、即座に視覚情報に変換することで、リアルタイム性を損ねることなく講義に参加できるというのでしょう。ただし、この変換を人間が行うのはコストが掛かる筈です。だから、マシンで行いたいというコンテクストでしょう。

講義の音声情報を文字情報に変換するというのは大変なことです。講義では、専門用語が飛び交うために辞書の充実も必要不可欠という悪条件です。話者の発話モデル構築のための準備時間も取れないでしょうし、学生の質問もあるでしょう。人によっては方言がまじったり、言いよどんだりすることが起こるはずです。更には部屋のノイズも多いはずです。これらの条件を全てクリアして初めて、聾者が不自由なく使える「実用的な技術」ということになるのです。

音声認識技術の活躍の幅は広い

音声認識技術は講義に限らず、様々な分野で聴覚障害者の助けとなることと思います。今後、裁判員制度などでも活躍することでしょう。更に聴覚障害者以外にも、音声入力が普及するかと思います。日本語をローマ字で打ってスペースを押して変換するというのは、連続すると結構なストレスだと私は思います。

この技術は「完成目前」とのことでした。河原教授のシステムは、テレビを見るかぎり、悪条件の中、素晴しいと言うしかない精度で音声を認識して文字列を表示していました。かな漢字変換の能力だけを考えても凄いと感じました。ちなみに、サイトは京都大学河原研究室だと思います。

このシステムには非常に興味があるので、もし情報をご存知の方がいらっしゃたら教えて下さると有り難いです。

また、この番組は 31日（金）昼 12:45〜13:00 にも再放送があるようです。「今ノートテイクを考える〜２００８ノートテイクシンポジウム」という番組です。チェックしてみて下さい。（詳細は NHK のサイト参照）

digi-log

2008-10-27