2024-1-21 16:23 /
今日工作总结

1. 网站移动端适配工作。

2. 阅读论文两篇
(1) InstantID : Zero-shot Identity-Preserving Generation in Seconds. 最近的一篇文章,只需要一张人脸就可以以scale级别的control实现图像生成。对于Identity Embedding做的工作似乎非常有效。网络结构如下:

用antelopev2提取人脸特征,然后结合IP-Adapter与text做cross-attention耦合,输入到UNet中。另一方面,用OpenPose检测5点人脸特征点,以controlnet的形式控制UNet生成。最后达成了one-ref生成的效果,非常impressive。

(2) Globally Optimal Toon Tracking。

这篇16年的文章出自TTW的实验室,一作是Haichao Zhu。这篇文章从各方面都非常漂亮,从经典的图论视角解决动画区域的匹配问题。

以区域-区域间的颜色、形状、rigid motion变化作为node cost,把rigid motion的2阶信号(加速度)作为Edge cost构建一个DAG,然后用k-shortest path algorithm寻找最优路径。寻找最有可能的trajectories(region状态转移),流程和cost function设计都合理且巧妙,优雅到有点让人难以置信。

当然缺点也是有的,比如速度比较慢,依赖区域信息等等..

3. 数据集核验工作。