将来はサーカスもAIで(違う)

ロボット犬に玉乗りも教えられるAIエージェント「DrEureka」

Image:Eureka Research

Nvidia AIのシニアリサーチマネージャー兼AI Agents Initiativeのリーダーを務めるジム・ファン博士らのグループは、大規模言語モデル(LLM)を活用し、ロボットが仮想世界で現実世界の作業を習得するSim-to-Realityシステム「DrEureka」を開発している。

ファン博士はこのシステムを用い、Unitreeの4脚ロボットGo1にバランスボールを使った玉乗りを教えている。ロボットに特定のスキルを仕込むシミュレーション環境を用意する場合、一般的にはまず、正しい動作をしたときに与える報酬や、環境の物理的なパラメーターを手動で構築してやらなければならない。

しかし、たとえばChatGPTのようなLLMを用いれば、いくつかのプロンプトを入力するだけでAIに特定のタスクをバーチャルな空間で訓練する報酬/ペナルティシステムをコード化できると研究者らは述べている。

パラメーターとしては各関節の自由度、ボールの弾力性、運動強度、故障や破損のポイントなどを与え、それらを調整してロボット犬を「調教」するわけだ。

チームはこのために、NVIDIA Researchの「Eureka」と呼ばれるAIエージェントに手を加えた「DrEureka」を開発した。ここでいう「Dr」は「Domain randomization」の略で、DrEurekaは摩擦、質量、減衰、重心などの物理パラメータをランダム化することで、ロボットが現実世界で遭遇する予測不可能な状況に、シミュレーション環境での学習を一般化できる。

シミュレーションを繰り返して行くと、AIによってバーチャルロボットの出来栄えや改善点を振り返ることもできる。例えばモーターをオーバーヒートさせたり、手足を能力を超えて動かしてズルをしようとする。またズルを許して鍛えたAIを現実のロボット犬に適用して実際に動かしてみると、非常に非効率的だったり、奇怪な動作をわれわれに披露することになる。

そのような問題を軽減するため、パラメーターを超えたりルールに違反する動作をすると、システムはAIの評価を0点にするようになっている。いくらAIといえども、報酬システムで強化されるにあたって、0点は好まない。

こうして鍛えられたロボット犬の動作は、従来のカリキュラムスタイルの教育の仕方より効率的だ。報告によれば、DrEurekaは複雑なタスクを一度に覚え込ませるのに長けており、これで鍛えたロボット犬は現実世界の複雑な地形の歩行速度で34%、移動距離で20%もアドバンテージを示したという。

DrEurekaの開発者らは、AIに実世界のフィードバックを提供できれば、バーチャルから現実へのトレーニングをさらに改善できると考えている。

Image:Eureka Research

現在、シムトレーニングはすべてロボットに固有な受容入力値のフィードバック、イメージセンサーやその他のセンサーからのデータで行われているものの、もしAIがログに残されたエラー値だけでなく、実世界での動作の失敗の様子を見て、改善すべき点を知ることができれば、より効果的に動作を覚えることができるだろう。

そのような方法を試すためにチームは、ロボット犬にバランスボールでの玉乗りを教えることにした。その結果はYouTubeで公開された動画で確認できる。

関連キーワード: