I
N
T
A
G
E
INTAGE

ウェアラブルデバイスでの「Valence(感情価)」と「Arousal(覚醒度)」の推定

ウェアラブルデバイスでの「Valence(感情価)」と「Arousal(覚醒度)」の推定

要旨:この研究では、感情の変化をとらえるために、様々な感情が喚起できる9つの動画を被験者に見せ、カメラで表情を、ウェアラブルデバイスで生体反応を同時に計測しました。計測した生体データより、特徴を抽出し、Arousal(覚醒度)とValence(感情価)を予測するのに有効な特徴を特定しました。

 

・研究背景

人の行動は感情により左右されることがあります。そのため、感情の変化をとらえるための研究は少なくありません。表情解析の研究もその中の一つです。しかし、今、使われている表情解析に基づく感情識別の技術は「作り顔でも感情があると判定される」、「感情の強度がわからない」、「環境の光、顔の傾きなどの制限」等の問題点があります。

これに対し生体データを用いてより正確に感情を識別する手法が模索されています。

 

・研究目的

生体データを計測するための機器は様々ありますが、調査の現場では、調査員が扱いやすいデバイスかつ被験者に負担の少ないデバイスのニーズが高まっている中で、ウェアラブルデバイスに対する期待が大きい。しかしながら、デバイスの小型化により、サンプリングレートや計測可能な生体反応が限られてしまいます。

より分かりやすくするために、今回の実験に用いたウェアラブルデバイスと先行研究で使われた計測機器の違いを下記の表1にまとめました。このような違いがある中で、ウェアラブルデバイスから取得するデータがどの程度で覚醒度や感情価を予測できるのかを検証しました。

 

表1:先行研究と本研究で使われている計測デバイスの違い

 

・研究内容と結果

この研究では様々な感情を喚起するために、短い動画を9つ用意し、実験参加者に見せ、Empatica社のE4とTDK社のSilmee Barから生体反応の計測を同時に行いました。実験中に録画した顔動画は実験終了後、表情解析ソフトを用い、各アクションユニットの時系列データを取得しました。実験の詳細は図1を参照してください。今回の実験では動画の表示とアンケートの回答を取得するために、PsychoPyを用いました。

 

図1:実験詳細

 

実験で使われた動画が想定と同じ評価になっているのかを確認するために、各動画のArousalとValenceのヒストグラム(図2(a))とArousalとValenceを軸にし、それぞれの動画の平均評価値(図2(b))をプロットしました。

悲しみの感情を喚起する親孝行の動画と嫌悪感を喚起する虫の動画の評価は想定した結果と異なる評価になりました。親孝行の動画は認知症になった母親と息子について描かれており、悲しみを感じつつも感動や温かみを感じるシーンもあるため、ValenceとArousalの評価が高いと低い評価の両方にばらつき、平均的に中位(ニュートラル)な評価になり、想定した低いValenceと低いArousal と異なりました。虫の動画では他の虫を食べている虫を映しており、高いArousalの評価を想定していましたが、被験者のフィードバックから心拍数が上がっていても、虫をみて覚醒度が上がるのは直感的ではないと感じ、評価が難しいことから平均的に中位的な評価になってしまいました。

 

図2:各動画のArousalとValenceの評価

 

次に、生体データの処理を行い、それぞれの計測デバイスから、Godinらに基づき、表2にまとめた特徴を抽出しました。ここではそれぞれの特徴の意味などについて説明しませんが、詳しく知りたい方はこの記事の最後にある参考書一覧を参考していただければと思います。

 

表2:各計測デバイスのデータから抽出した特徴

 

計測データから対象となる特徴量を抽出した後、二値分類課題を行うために、それぞれの被験者のArousalとValenceの評価データを正規化し、平均よりも高い評価は1のラベルを付け、それ以外のデータは0のラベルを付与しました。今回はデータ数が少ないため(190個)、複雑なモデルを避け、特徴のランキング化をした上で、特徴を選別し、linear SVMを用い、予測を行いました。それぞれのデバイスのデータを用いた場合の予測の適合率(precision)と再現率(recall)を可視化したものが図3となります。

 

図3:各デバイスの特徴を使い、予測したArousalとValenceの適合率と再現率の結果

 

表情解析(FR)から作成した特徴から学習したモデルのPrecision、Recallが、図3からわかるように、Arousalの予測に関して、他のデバイスの特徴より一番良い(0.79)が、Valenceの予測は他と比べてかなり低いことがわかりました。 Silmee Bar(Sil)では高覚醒の予測の再現率は他とあまり変わりませんが、低覚醒の予測ができていないことから予測する精度がかなり落ちてしまいました。E4のデータから作成した特徴を用いることで安定したArousalとValenceの予測精度は得られますが、他と比べて高精度とは言えません。また、E4はリストにつけるため、手の動きに弱く、動きによるノイズや欠損値が発生しやすいことがわかりました。

 

・今後の展望

今回の研究では各ウェアラブルデバイスと表情解析のデータの特徴と弱みを把握することができました。また、使われている動画の評価から、感情の複雑さも実感できました。これらの結果を踏まえ、感情の予測をよりよくするために、データ数を増やすことは手段の一つではありますが、それよりも感情の性質をより理解した上で実験計画を立てることが大事だと思います。

 

・参考資料

 

Life Insights, Research Areas