本研究室ではプレゼンテーション練習やスピーチ訓練のために、VR空間内に多数のCGキャラクターで仮想聴衆を形成し、利用者の話に対して音声駆動型うなずき生成モデルによりうなずきを行わせるシステムを開発してきました。これらのシステムでは発話音声のリズムに合わせて自動的にうなずきを生成しますが、自然な頻度でうなずかせるための調整を必要としています。
ここで、仮想聴衆が1人の場合に調整したうなずき頻度を、仮想聴衆が複数いる場合にもそのまま適用するとうなずきが過剰に感じられることに我々は気づきました。そこで本研究では、仮想聴衆の人数ごとに適切なうなずき頻度を探るための調査を行いました。
調査では大学生・大学院生9名を対象に、録音された講義音声や被験者自身の発話に合わせてうなずく仮想聴衆を観察し、表示キャラクター数(15体、5体、1体)ごとに「普段の講義のような」印象になるようにうなずき確率を調整してもらいました。実験の結果、表示キャラクター数が減るほど適切なうなずき確率が高くなることが明らかになりました(15体:約40%、5体:約50%、1体:約60%)。つまり、仮想聴衆のうなずきが自然な印象を持つためには、聴衆の人数を増やすにつれてうなずき頻度を減らす必要があることを示しています。
