どれほどの速さなら中身を理解できるのかについては、過去の研究から3倍速程度が限界ではないかと言われています。情報の欠落など、我々の技術を適用し全部の言葉は聴き取れなくとも、話のテーマがある程度理解できるといったレベルでも、6倍速程度で限度が来ると考えており、それ以上は自分がその文章を聞くかどうかを判断するためのキーワードを探すために高速音声を利用するというように、目的によって高速音声を使い分けることになると思います。
また、外国語への応用も課題です。英語をはじめフランス語やドイツ語、スペイン語、中国語などへの適用を検討しましたが、本当に聴きやすいかは我々だけでは完全な判断が出来ず、ネイティブの評価を受けなくてはなりません。実験を繰り返し行ってサンプルを増やしていく必要もあります。
また、テキストデータが必要な高速再生は、現状ではリアルタイムでの再生ができません。これらにも対応していくには情報をどこまで捨てられるのかの許容範囲を探るなど、もう少しアルゴリズムを検討する必要があります。最近増えている、電子図書の読み上げなどにも適応していきたいところです。
晴眼者は、本の目次をみる際にパッと見てある程度の内容を理解したり、本文を「斜め読み」したりします。これと同じようなことを高速音声再生技術で可能にしたいと考えています。視覚障がい者の方などの生活がより豊かになればと考えています。
6倍速の高速再生をおこなっているところ。音声の波形を画面で表示
赤は、もともとの音声データの波形。青が高速再生によって再生時間が短縮された音声データの波形。
音声のない、“間”の部分がカットされているのがわかる。