2024-3-26 02:42 /
今日工作总结

1. 阅读论文3篇
(1) Intelligent Grimm -- Open-ended Visual Storytelling via Latent Diffusion Models
生成连环画,利用RefNet提供text-vision pretext,感觉效果不是很好
(2) InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
提出了一种新的Align范式,能够扩大模型规模,利用上各种foundation models,还是比较不错的。
(3) Mora: Enabling Generalist Video Generation via A Multi-Agent Framework
微软提出的Sora开源方案,实际上是搭了一个foundation models的system,新东西没有, 不过task的任务设计得很好。

2. 验收网络训练。降低mask prob后训练了1个epoch,网络几乎没有收敛。Loss也没有出现进一步下降的情况,估计自己的假设存在一定的问题,需要换一个思路了。

3. 收集数据集