2023-6-17 00:18 /
---今日工作总结---
1. 重新阅读了Render A Video Zero-Shot Text-Guided Video-to-Video Translation这篇论文。终于弄清楚了主要的思路。文章总体的大框架借鉴自Stylizing Video by Example这篇论文,生成关键帧+关键帧帧间序列填补。为了实现生成关键帧时的constistency,使用了如下的方法:
(1) 用cross-attention实现global consistency
(2) 用光流对齐潜变量,实现图像形状的consistency
(3) 循环使用encoding计算出encoder产生的误差并提供后续矫正,接着用光流对齐相邻两帧的图像域,然后encoder转化成潜变量融合实现texture consistency
(4) 用AdaIN实现图像颜色一致

极限缝合怪。

2. 阅读了Stylizing Video by Example和Tune-A-Video两篇论文。AdaIN暂时没看。

---明日工作安排---
1. 继续推进SD+ControlNet的学习
2. 阅读论文AdaIN