2024-3-26 13:34 /
今日工作总结

1. 了解中国动画历史。中国的动画发展之路也许比任何一个国家都要艰辛和坎坷,抽空写一下自己的感想吧。

2. 阅读论文Evolutionary Optimization of Model Merging Recipes
进化算法+Model Merge. 援引文中观点,进化算法相比NAS效率更高(虽然两者的工作并不完全一样),可以在推理层面融合训练好的Foundation Models的weights,并搜索更优的Paths. 这种范式可能会代表未来大模型发展的一个重要方向。

3. 验证模型训练新思路。跑了两组实验,效果都比之前有质的飞跃。

4. 推进Modality Augmentation工作。和合作者讨论implementation, 获得了一点启迪值,并完成了代码工作,等待明天进行测试和效率估计。

5. 了解Mistral使用的MoE和SWA技术。对Transformer的理解一直都不够牢固,扒Llama代码,查看data flow和学习kv cache。

6. 数据收集工作