生成AIを利用したリアルタイムアバターの生成

テキスト → 3Dモデル

近年、生成AIの技術が進歩しテキストから画像を生成したり、画像から3Dのモデルを生成したりなど、AIモデルにデータを渡すことで少ない情報から大きな出力を得られるようになっています。

弊社ではいままで個々のAIモデルを検証し、利用方法の検討などを行っていました。

StableDiffusionを利用した3Dモデルのデザインプレビュー

Apple Vision Proと生成AI（TripoSR）を使ったアプリ開発

今回はこれらの技術を統合して、テキスト→3Dモデル(リグ付き)を生成し、アニメーションさせる工程を全自動で行うシステムを開発しました。

まずは全体の流れと、最終結果をご覧ください。

「テキストを入力すると3Dモデルが生成され、踊りを行う」といった流れが実現できました。

以下、より詳しくそれぞれの技術仕様を解説します。

テキストからアバターの生成

このシステムでは生成されるモデルを人間型に制限しており、テキストの内容を人間関連以外のものにすると、強制的に人間のような外見のものが生成されることにしています。

主に3つのステップを経て3Dモデルが生成されます。

ステップ1

最初に、テキストからTポーズの2D画像をStable Diffusionで生成します。テキストデータとプロンプトだけではなくOpenPoseの参考スケルトン、マスク、背景、などの画像もオプションの情報として加えています。これはプロンプトを利用するだけでは、作成された画像が「人型の形状+Tポーズ」であることを保証出来ない為、OpenPoseを使用して画像を分析しのデータに補正をかけています。

更に、3DモデルAI生成の画像処理を容易にするために、画像の背景をできるだけシンプルな1色にする必要があるので合わせて調整を行います。

ステップ2

次に、3Dモデル生成AI（Meshy、TripoSR、など）を利用し、ステップ1の画像から3Dモデルを生成します。

結果、3DモデルのOBJファイルとテクスチャのPNGファイルが生成されます。

ステップ３

最後に生成された3Dモデルに従ってリグ付けを自動で行います。

リグ付けに利用した技術に関しては、以下の文章で詳しく説明します。

3Dモデルの自動リグ付け

3Dモデルに自動的にリグを付ける処理はかなり難しく、様々なパターンを検証しました。

まず、「Rignet」というAIモデルがあり、実用性を検証しました。メッシュが人型に寄っていれば良い結果となりましたが、メッシュに頂点の歪みがある場合、NGとなるケースもあり、結果が不安定でした。

他にもいくつか試しましたが、最終的に採用したのはBlenderを使ったアプローチです。

Blenderはモデリング、リギング、アニメーション、シミュレーション、レンダリング、合成、モーショントラッキングなど、3Dパイプライン全体を提供している強力なオープンソースのツールです。今回利用した3Dモデルをリギングする機能では、スケルトン構造（アーマチュア）を作成し、3Dモデルのメッシュとアライメントすることができます。

しかし、Blenderを利用するには1つ大きな問題がありました。Blenderのデフォルトのアーマチュアに人間型のアーマチュアがありますが、3Dモデルのメッシュサイズと向きが異なる場合が多いので合わせる必要があります。生成AIと違って自動的にアーマチュアをメッシュに合わせる機能はないので、今回補正アルゴリズムを独自に開発して対応しました。

脚と腕の位置を検出し、それぞれの部位に対してアーマチュアの位置を調整することで自動的にメッシュに合わせたリグを設定する事ができました。