久々の論文メモ Skeleton-Aware Networks、DINOv2など

2024/4/2

読んだ論文をまとめる習慣が三日坊主で終わっていたので再開

Skeleton-Aware Networks for Deep Motion Retargeting https://deepmotionediting.github.io/retargeting

モーションをプロポーションの違うモデルのスケルトンにリターゲティングするやつ。Githubにコードあり。

Sketch2Poseの論文に書いてあったRetargetingモデル。
アーキテクチャの画像を見ると、SkeltonごとにGANのモデルをトレーニングする必要があり、そのモデル間でcross stracturalなretargetingもできるということなので万能ではない。
E：Encoder、D：Decoder、C：Discriminator
S：initial pose、Q：Joint rotations
だから結局対となるデータセットが必要。
推論時にはinputのS,QとターゲットのSを使う
Poolingによって最小単位の構造にすることで構造が違っても使えるようになるらしい。

Visual Question Answering における視線情報を用いた質問の曖昧性解消 https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/E1-1.pdf

視線情報を入れるためにAdapterを追加し、CLIPで注目領域をエンコードしたベクトルを統合するアーキテクチャらしい

https://ai-scholar.tech/articles/object-detection/patchcore 異常検知手法のPatchCoreの解説

informative drawings で、ラフスケッチを描く | cedro-blog http://cedro3.com/ai/informative-drawings/

Joint Audio and Speech Understanding https://arxiv.org/html/2309.14405v3

音声とLLMを結び付けたモデル音声認識モデルのWhisperでエンコードしたembeddingをどうやってLLMに結びつけるのか知りたくて読んだ。
データセットを作ったらしい。

画像出典：https://deim2024-tutorial-public.s3.ap-northeast-1.amazonaws.com/TU-B-1_LLMと音声.pdf

以下DINOv2など

第12回全日本コンピュータビジョン勉強会：画像の自己教師あり学習における大規模データセット

speakerdeck.com

MetaのコンピュータビジョンモデルDINOv2はどのような自己教師あり学習を行っているか？(DINOv2: Learning Robust Visual Features without Super…

aburaku.hatenablog.com

From CLIP to DINO: Visual Encoders Shout in Multi-modal Large...