2023-12-5 15:27 /
今日工作总结

1. 阅读论文AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning.
AnimateDiff上个月火了一阵。不过出乎意料地,他的技术思路并不算很复杂。


从这个overview中就可以看得出文章的技术要点几乎只有一个,即训练一个off-the-shelf,包含了运动知识的motion model。训练架构类似于controlnet和lora,对原始的frozen DM进行扩充,并在WebVid-10M数据集上训练以获得视频的priori,然后把motion知识迁移到任意personalized model上进行zero-shot的image-video的合成。由于训练集只有16frames,所以合成的视频运动的效果比较有保证。

视频中插入的模块是Temporal Transformer。前几个月读过一篇论文,讲了cross-frame attention,不过技术细节上可能有一些差异,毕竟这里是做了维度转置实现的。

这篇论文也可以这么理解:“总体思路是视频Diffusion,即3D-Diffusion,其特色是和Pretrained Image Diffusion组合。卖点是在personalized上进行zero-shot。”

前天读的Animate Anyone中的temporal attention就是这个temporal transformer。但是这样又有了一个新的问题: Animate Anyone中的cross-attention指代的是什么?还需要再看下..

2. 阅读论文GigaGAN。CMU和Adobe的论文,很NB,没看完,明天接着看。