ビデオ会議などのアバターに反映できる

使用者の表情を“ソナー”で読み取る、イヤホン型デバイス「EarIO」

Image:Ke Li/Cornell University

コーネル大学の研究者が、使用者の顔の動きをリアルタイムで読み取りスマートフォンに送信、ビデオ会議などのアバターに反映させられるイヤホン型デバイス「EarIO」を開発している。

EarIOは、内蔵するスピーカーから使用者の顔に向けて音を発し、その反響のしかたをディープラーニングによって見分けることで、表情を再現するという仕組みになっている。

コーネル大学といえば、2020年にはオーバーヘッド型ヘッドホンのイヤーカップ部分にカメラを備え、頬の輪郭から表情を読み取ってアバターに再現するデバイスを開発していた。しかし、研究チームのひとりで情報科学助教授のCheng Zhang氏によれば、「カメラを使って顔の動きを追跡しようとすると、どうしても大きく、重く、エネルギー消費量も大きくなってしまうため、ウェアラブルには向かない」という。また光学的なカメラを使用すると、使用者の個人的な情報に結びつくものが多く写り込んでしまう問題もあった。

その点、現在取り組んでいるEarlOの顔トラッキング方式では、音響を利用することで、プライバシーを確保しつつ、省エネ、低コストそして快適さを提供できるようになったという。とくにエネルギーはカメラに比べて、1/25の消費量で動作させることができるようになったとのことだ。今回の発表時点では、EarIOは内蔵バッテリーで約3時間使用できるが、将来的にはさらに駆動時間を延長したいとしている。

Image:Ke Li/Cornell University

16人を対象に試験を行ったところ、EarIOは使用者が座っているとき、また歩いているときも問題なく動作することがわかった。このとき、風や道路の騒音や多少の背景音は、表情の読み取りには影響しなかったとのこと。ただし、センサーの検知感度が高すぎるといくつかの問題が発生する可能性があったという。

「センサーは非常に微妙な動きを追跡できるのだが、周囲で何らかの音が発生したり、頭のわずかな動きであってもそれを拾ってしまい、具合が悪かった」と、研究チームのひとりRuidong Zhang氏は述べており、研究チームでは今後、周囲の騒音や雑音を遮断する機能を向上させたいとしている。

また今回の発表時点では、EarIOは使用者の表情を学習するために、あらかじめ32分間にわたり顔データの収集を行わなければならない。これに関しても研究チームは、いわゆるプラグ・アンド・プレイデバイスのように、装着してすぐに使い始められるようにしたいと考えているそうだ。

この技術が一般でも利用可能になれば、たとえばウェブカメラの付いていないデスクトップPCでも、ビデオ会議にアバターで参加できるようになるだろう。またVtuberなども、カメラやモーションキャプチャーでなく、イヤホンを身に付けるだけでアバターを動かすことが可能になるかもしれない。

関連キーワード: