• 感情や個人性を高品質に表現可能なDNNに基づく音声合成方式の研究

    科研費 基盤研究(C)令和3年度~令和5年度

  • 概要

    本研究では,Deep Neural Networks(DNN)を利用することで感情や個人性を表現できる音声合成方式の実現を目指す.合成音声の品質はDNNにより飛躍的に性能が向上したものの,非言語情報である感情性や個人性を高品質に表現できるまでには至っていない.非言語情報は音声が担う重要な情報であり,これを欠くと応答音声は無味乾燥となり,対話システムの応用領域を狭めてしまう.本研究では,新しいDNNによる音声信号生成アルゴリズム(WaveNet)が,韻律特徴とスペクトル特徴とを同時にモデル化できる点に着目し,非言語情報を高品質に表現できる音声合成方式を検討する。

     

  • 言語情報を含まない感情音声とは?(研究動機)

    音声は2つのチャネルで感情情報を伝える.ひとつは単語やフレーズといった言語チャネルであり,他は声質やイントネーションといった音響的特徴の非言語チャネルである.例えば,「何やっているの」というフレーズは,イントネーション等を変化させることで,「疑問」「非難」「怒り」などのニュアンス伝えることができる.また,我々は知らない言語の会話を聞いても感情を感じることがある.会話で感情を表現するとき,非言語的な要素が重要な場合があることも経験している.このようなことから,音声対話システムなどで感情込みの合成音声で応答する場合,必ずしも言語情報が必要とは限らない.ちなみに,テキストからの音声合成(Text-To-Speech:TTS) では入力となるテキストが必須であるが,感情表現に合ったテキストでないと言語チャネルと非言語チャネルとが競合して感情が伝わりにくくなる恐れもある.そこで本研究では,言語情報なしで感情を表現する音声っぽい音(Speech-like Sound)の合成を試みる.

  • WaveNetの可能性

    これまでの音声のモデル化では,音声が生成される過程を声道と音源とに分離することが一般的である(音声生成過程モデルと呼ばれる).すなわち,音源とは声帯振動によって生じる空気の振動であり,この振動が舌や唇などで形成される空間(声道)を伝搬しながら変調をうけ,音声として放射される.この音声生成過程モデルは優れており,音声符号化,音声認識,音声合成などの音声処理に大いに貢献している.一方,厳密に見れば声の高さ(音源)を変えると声道の形状が微妙に変化するなど,声道と音源との相互作用があることも知られている.例えば,音声生成過程モデルに基づく音声分析合成系(VOCODER)では,声道を変えずに声の高さだけを変えると,不自然な合成音声になる.

    これに対し,WaveNetは音声生成過程モデルに基づいておらず,過去の音声信号波形を利用して次のサンプリングデータを推定する方式であり.韻律特徴とスペクトル特徴とを同時にモデル化できる点が優れている.感情音声は声帯振動と声道形状が速く,且つ,大きく変化するため感情音声を合成するためには,多様でダイナミックな音声の特徴量を自由度高く表現することが求められる.そこで,本研究では,WaveNetを信号生成器とみなし,スペクトル,話者,感情などの補助情報を用いて条件付けをすることにより,多様な音響信号の生成を試みる.

    broken image
    左図はWaveNetの基本モデルである.時刻(t+1)の出力値の確率分布を,過去のN点の値から推定するモデルである.CNN(畳み込みニューラルネットワーク)構造を持つが,下位層から上位層へは全て接続されるのではなく,飛び飛びに接続されるのが特徴である.また,確率分布は,補助情報による条件下で推定されるのが一般的である.
  • 感情音声合成と学習データ量

    感情音声合成の課題の一つは感情音声データ収録の難しさにある.DNNによる学習では,高品質な音声を合成するためには大量の音声データが必要である.しかし,プロのナレーターや声優を除いた一般の人にとっては,ある感情を維持して長時間発声することはそもそも難しい.また,感情表現は状況や文脈,フレーズに依存することから,収録環境や収録コンテンツを準備することも困難である. そこで本研究では,あえて感情表現の実現を優先し,言語情報のバリエーションを軽視することによって,感情表現を学習するための音声データ量を少なく抑えることを試みる.

     

  • 2ステップによる学習

    学習は2つのステップからなる.ステップ1では,大量の平常発声データを用いて,スペクトル情報と感情IDを補助情報としてWaveNetを学習する.ステップ2では,少量の感情音声データを用いて,感情IDだけを補助情報としてステップ1で学習したWaveNetモデルをチューニングする.

     

    broken image
    ステップ1の目的は,WaveNetに多様なスペクトルパタンを生成する能力を与えることである.ステップ2の目的は,感情IDだけから信号を生成するモデルを学習させることである.ステップ2ではスペクトル情報を利用したないため,調音結合などのバリエーションを学習データに反映する必要がないことから,学習データを少なくすることができる.
  • broken image

    怒り(a)は,高い周波数帯域に強いスペクトル見られ,波形の振幅の変化幅が大きい,基本周波数は平常(c)に比べて少し高い.喜び(b)では,強いスペクトルは高低の周波数帯域の何れにおいても非常に強く出ている.基本周波数の変化が著しい.平常(c)では,スペクトルの変化は少なく,低い周波数帯域に強いスペクトルが見られる.基本周波数は低く安定している.

  • 参考文献

    Kento Matsumoto, Sunao Hara, and Masanobu Abe, “Controlling the Strength of Emotions in Speech-like Emotional Sound Generated by WaveNet,” Interspeech 2020, pp.3421–3425, Shanghai, China, Oct. 2020. (Oral-Online/2020-10-28) [doi:10.21437/Interspeech.2020-2064]
     
    Kento Matsumoto, Sunao Hara, Masanobu Abe, “Speech-like Emotional Sound Generator by WaveNet,” APSIPA Annual Summit and Conference 2019, pp.143-147, Lanzhou, China, Nov. 2019.
     
    松本剣斗,原直,阿部匡伸,“WaveNetによる言語情報を含まない感情音声合成方式の検討,” 情報処理学会研究報告,vol. 2019-SLP-127, no. 61, (2019-MUS-123(61)), pp. 1–6,June 2019. (ポスター発表/2019-06-23)※音学シンポジウム (学生優秀発表賞)
  • 岡山大学大学院ヘルスシステム統合科学研究科 ヒューマンセントリック情報処理研究室

    教授:阿部匡伸 助教:原直