照亮星星的人们 » 日志
【AI动画技术研究】日志更新(189)

2023-12-5 15:27 /

今日工作总结

1. 阅读论文AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning.
AnimateDiff上个月火了一阵。不过出乎意料地，他的技术思路并不算很复杂。

从这个overview中就可以看得出文章的技术要点几乎只有一个，即训练一个off-the-shelf，包含了运动知识的motion model。训练架构类似于controlnet和lora，对原始的frozen DM进行扩充，并在WebVid-10M数据集上训练以获得视频的priori，然后把motion知识迁移到任意personalized model上进行zero-shot的image-video的合成。由于训练集只有16frames，所以合成的视频运动的效果比较有保证。

视频中插入的模块是Temporal Transformer。前几个月读过一篇论文，讲了cross-frame attention，不过技术细节上可能有一些差异，毕竟这里是做了维度转置实现的。

这篇论文也可以这么理解：“总体思路是视频Diffusion，即3D-Diffusion，其特色是和Pretrained Image Diffusion组合。卖点是在personalized上进行zero-shot。”

前天读的Animate Anyone中的temporal attention就是这个temporal transformer。但是这样又有了一个新的问题: Animate Anyone中的cross-attention指代的是什么？还需要再看下..

2. 阅读论文GigaGAN。CMU和Adobe的论文，很NB，没看完，明天接着看。

Tags: AI动画技术研究系列

照亮星星的人们 » 日志【AI动画技术研究】日志更新(189)

照亮星星的人们 » 日志
【AI动画技术研究】日志更新(189)