2024-2-3 15:59 /
今日工作总结

1. 抽空阅读了两篇论文
(1) DragNUWA: DragNUWA: Fine-grained Control in Video Generation by Integrating Text, Image, and Trajectory.
和dragGAN一样聚焦于控制视频生成模型的工作。在这篇文章中,condition共有三个: 1. repeated first frame. 2.trajectory 3.text. 其中trajectory是在通过unimatch生成的光流上采样生成的。


文章的工作还是比较通俗易懂的,写作也可以。总体不错的一篇文章。

(2) Structure and Content-Guided Video Synthesis with Diffusion Models
这篇是前几个月比较火的Runway-gen1。暂时还没有读完,这篇的工作是基于depth的translation,这个思路在之前读过的一篇视频生成的论文里好像见过。

2. 开会。

3. 服务器资源申请和收集。通过各种人脉和关系找机器和卡,统计了一下目前手上全部可用的设备,准备做一个任务队列规划。

ps:
好像最近controlnet部署了InstantID,这个速度真的是快,自愧不如。明天闲的时候整来试试。
domo ai出了一个非常稳定的video translation,明儿也试试。