たった1枚の写真や簡単なテキストから作られた没入型の3D世界で、走ったり泳いだり、NPC(ノンプレイヤーキャラクター)と交流したりできると想像してみてください。Genie 2は、Google DeepMindが開発した画期的なAIツールで、このビジョンを実現します。
画像をインタラクティブな3D世界に変換
Genie 2は、画像やテキストの説明に基づいて3D世界を生成できます。これらの環境は、第一人称や第三人称の視点から、最大1分間の車両操作を含む短いビデオシーケンスまで多岐にわたります。Google DeepMindのブログで紹介されているGenie 2のデモでは、最大20秒のクリップが示されています。
Genie 2の魅力的な機能の一つは、世界のレイアウトを記憶する能力です。キャラクターの視界から消えたオブジェクトや場所は、再訪時に元の状態で再現されます。これにより、動的な環境を探索する際に連続性とリアリズムが確保されます。
インタラクティブな機能
Genie 2のユーザーは、生成された世界で積極的に関与できます。彼らは以下のことができます:
- ジャンプしたり泳いだり、さまざまな地形を探索する。
- ドアを開けたり爆発物を起爆させたりするなど、オブジェクトと対話する。
- NPCを作成し、仮想シーンに深みと物語を加える。
このレベルのインタラクティビティは、静的な画像を超えた体験を提供し、ゲーム、トレーニング、シミュレーションの無限の可能性を提供します。
Genieの進化
Genie 2は、その前身であるGenie 1の成功を基にしています。Genie 1は2023年2月23日にGoogleによって発表され、11億のパラメータを備えた2D世界の生成に焦点を当てていました。しかし、Genie 2は2D入力を完全にインタラクティブな3Dシーンに変換することで大きな進歩を遂げています。
GoogleはGenie 2の一般公開時期を明らかにしていませんが、その応用範囲は広く、ゲームデザインから没入型ストーリーテリングまで多岐にわたります。