照亮星星的人们 » 日志
【AI动画技术研究】日志更新(298)

2024-3-26 02:42 /

今日工作总结

1. 阅读论文3篇
(1) Intelligent Grimm -- Open-ended Visual Storytelling via Latent Diffusion Models
生成连环画，利用RefNet提供text-vision pretext，感觉效果不是很好
(2) InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
提出了一种新的Align范式，能够扩大模型规模，利用上各种foundation models，还是比较不错的。
(3) Mora: Enabling Generalist Video Generation via A Multi-Agent Framework
微软提出的Sora开源方案，实际上是搭了一个foundation models的system，新东西没有，不过task的任务设计得很好。

2. 验收网络训练。降低mask prob后训练了1个epoch，网络几乎没有收敛。Loss也没有出现进一步下降的情况，估计自己的假设存在一定的问题，需要换一个思路了。

3. 收集数据集

Tags: AI动画技术研究系列

照亮星星的人们 » 日志【AI动画技术研究】日志更新(298)

照亮星星的人们 » 日志
【AI动画技术研究】日志更新(298)