Sketch2Poseの被引用から。<ul class="e-ul"><li class="e-li">SketchBodyNet: A Sketch-Driven Multi-faceted Decoder Network for 3D Human Reconstruction</li><li class="e-li"><a href="https://arxiv.org/pdf/2310.06577.pdf" target="_blank" rel="noopener noreferrer nofollow" class="e-link">https://arxiv.org/pdf/2310.06577.pdf</a></li><li class="e-li">フリーハンドスケッチからの3Dポーズとシェイプの再構成をするmulti-faceted decoderの提案。</li><li class="e-li">ネットワークは、バックボーンと3つの別々のアテンションデコーダーブランチから成る。これらのmulti-head self-attentionモジュールから抽出された特徴はMLPによって処理され3D最高性が行われる。</li><li class="e-li">これらの3つのモジュールはそれぞれカメラ、シェイプ、ポーズの予測をする。SMPLに基づく。</li><li class="e-li">アノテーションは3Dモデルデータ。</li></ul>ポイント<ul class="e-ul"><li class="e-li">カメラ、シェイプ、ポーズを共有のネットワークではなくブランチに分けることで相互的な悪影響を防ぐことができる。</li><li class="e-li">3Dから合成されたデータとリアルデータの混合データを初期の学習では使い、段階的にリアルデータだけにするという段階的な学習を行う。step-wise refinement training (SRT)</li><li class="e-li">合成データの場合は2DキーポイントのGTを使うがリアルデータでは使わない。<figure class="e-image" data-natural-width="1018" data-natural-height="569" data-size="default"><img src="https://r2.sizu.me/users/4689/post-images/euohcx871ec6db6786zu.png" width="1018" height="569" /></figure></li></ul>

論文メモ：SketchBodyNet