現在ある高速音声再生技術と比較して、より聞き取りやすくするために取り組んだのは、「高速倍率の適応的な変化」です。今までの高速音声再生の技術では、音声全体を一律の高速倍率で再生します。ですが、わたしたちの高速音声再生技術では、音声データの重要な部分とそうでない部分で高速倍率を変化させます。
話し始めというのは、「何の話をするのか」を把握するために重要な部分で、高速倍率を少し落とし、ゆっくりめで再生します。話が進んでいくにつれ内容も推測できるようになってきますので、話し終わりは高速倍率を上げます。そうすることで、意味の聞き取りやすい高速音声再生になります。
高速倍率を変化させる際に、音声の抑揚やアクセントにも注目しました。
人は、重要なことを話すときには声が高く、そして大きくなります。その特徴を考えて、音声の高さ(ピッチ)や音量(パワー)が上がった部分は、ゆっくりめに再生するようにしました。反対に、ピッチやパワーが下がった部分は速めに再生します。そうすることで、重要な部分はしっかりと聞き取ることができ、内容を推測できる部分は高速度で聞き流すことができます。
抑揚とアクセントのどちらを優先すべきかという点では、言語によって多少違いがあります。英語の場合、音声の高さ(ピッチ)よりも、音量(パワー)を重視したほうが聞き取りやすいことが評価実験で明らかになりました。一方で、日本語では、音量(パワー)よりも音声の高さ(ピッチ)を重視して高速倍率を落としたほうが、聞き取りやすいことがわかりました。このように、高速音声再生技術は、日本語の他に英語でも応用ができるような基礎技術が出来上がっています。
言葉と言葉の「間」などの無音部分を自然さが失われない程度に短くすることで、n倍の高速再生では、全体の再生時間が1/n以内になるようにします。
このように、抑揚やアクセント、無音部分など、音声の特徴にそって高速倍率を変動させることで、今までの高速再生音声よりも格段に聞き取りやすい音声再生を実現させることができました。
また、この高速音声再生技術は、リアルタイムでの処理ができます。音声データさえあれば、すぐその場で、聞き取りやすい形での3倍速程度の高速再生ができます。