一人称動画と人の動きを同時生成 新AI「EgoTwin」が登場―ヒューマノイドの遠隔操作を可能に

ヒューマノイドロボット

人の目線で撮影したような動画と、その動作を同時に生成する新しいAI手法「EgoTwin」が研究チームから発表された。拡散型Transformerを基盤とする同技術は、頭の動きにカメラ視点を正確に合わせ、映像と身体動作を因果的に結び付ける点が特徴だ。

研究によると、一人称視点の映像生成は従来ほとんど未開拓であり、動画内のカメラ軌跡と頭部動作を揃えること、そして映像の変化に沿った自然な動作を導き出すことが大きな課題だった。EgoTwinは頭部を基準とする動作表現を導入し、注意機構に因果関係を組み込むことでこの課題を解決した。

さらに研究チームは、現実世界の大規模な「テキスト・動画・動作」の同期データを収集。動画と動作の一貫性を評価する新しい指標も開発し、従来技術を上回る成果を実証した。公開サイトでは、手の動きや視線移動と映像のリンクを確認できる生成例が紹介されている。

産業面での応用可能性も広い。現場作業や医療訓練のシミュレーション、ロボットの遠隔操作における操作感の向上、さらにXR体験やウェアラブル機器のUX設計など、幅広い分野への展開が期待される。今後は長尺動画の生成や物体操作との統合が課題とされており、研究の進展が注目される。

タイトルとURLをコピーしました