2023-6-16 00:43 /
---今日工作总结---
1. 阅读论文
Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation
https://arxiv.org/abs/2306.07954
最近比较火的一篇论文, 以zero-shot和training-free为特点。直接在SD和ControlNet上生成视频。通过optical flow,cross-frame attention和其他一些缝合的方法实现了稳定的效果。
Specifically, cross-frame attention [36] is applied to all sampling steps for global style consistency (Sec. 4.1.1). In addition, in early steps, we fuse the latent feature with the aligned latent feature of previous frame to achieve rough shape alignments (Sec. 4.1.2). Then in mid steps, we use the latent feature with the encoded warped anchor and previous outputs to realize fine texture alignments (Sec. 4.1.3). Finally, in late steps, we adjust the latent feature distribution for color consistency (Sec. 4.1.4).
2. 继续使用ControlNet尝试生成图像,今天简单验证了一下生成的效果。
使用ControlNet由原画生成摄影/上色稿会存在以下的问题:
1. 生成效果不稳定,生成效果决定于模型和tag。不能实现简单便捷的精准控制,如果没有tag将不能准确识别原画人物的神态,表情。
2. 大量参数(采样方法,Adetailer, ControlNet canny resolution)会极大影响最终结果,需要通过多种插件的组合达到一个良好的效果。
3. 没有帧间连续性,输入两张相邻的原画,绘制会出现不同的细节,不符合一致性和运动规律。
4. reference_only并不能起到明显的颜色监督作用,色见本和人设图不能为模型提供参考。这个也许可以解决。
5. 不能处理的两种情况: (1) 非肖像画:小物体(远景人物),身体部分(仅脚步,手臂等)(2) 夸张效果(表情,动作)
6. 改变原图。

目前效果最好的反而是中间效果


百变小樱