2024-1-21 16:23 /
今日工作总结
1. 网站移动端适配工作。
2. 阅读论文两篇
(1) InstantID : Zero-shot Identity-Preserving Generation in Seconds. 最近的一篇文章,只需要一张人脸就可以以scale级别的control实现图像生成。对于Identity Embedding做的工作似乎非常有效。网络结构如下:
![](//lain.bgm.tv/pic/photo/l/51/b2/752484_z3Xe8.jpg)
用antelopev2提取人脸特征,然后结合IP-Adapter与text做cross-attention耦合,输入到UNet中。另一方面,用OpenPose检测5点人脸特征点,以controlnet的形式控制UNet生成。最后达成了one-ref生成的效果,非常impressive。
(2) Globally Optimal Toon Tracking。
这篇16年的文章出自TTW的实验室,一作是Haichao Zhu。这篇文章从各方面都非常漂亮,从经典的图论视角解决动画区域的匹配问题。
![](//lain.bgm.tv/pic/photo/l/51/b2/752484_uvXCV.jpg)
以区域-区域间的颜色、形状、rigid motion变化作为node cost,把rigid motion的2阶信号(加速度)作为Edge cost构建一个DAG,然后用k-shortest path algorithm寻找最优路径。寻找最有可能的trajectories(region状态转移),流程和cost function设计都合理且巧妙,优雅到有点让人难以置信。
当然缺点也是有的,比如速度比较慢,依赖区域信息等等..
3. 数据集核验工作。
1. 网站移动端适配工作。
2. 阅读论文两篇
(1) InstantID : Zero-shot Identity-Preserving Generation in Seconds. 最近的一篇文章,只需要一张人脸就可以以scale级别的control实现图像生成。对于Identity Embedding做的工作似乎非常有效。网络结构如下:
![](http://lain.bgm.tv/pic/photo/l/51/b2/752484_z3Xe8.jpg)
用antelopev2提取人脸特征,然后结合IP-Adapter与text做cross-attention耦合,输入到UNet中。另一方面,用OpenPose检测5点人脸特征点,以controlnet的形式控制UNet生成。最后达成了one-ref生成的效果,非常impressive。
(2) Globally Optimal Toon Tracking。
这篇16年的文章出自TTW的实验室,一作是Haichao Zhu。这篇文章从各方面都非常漂亮,从经典的图论视角解决动画区域的匹配问题。
![](http://lain.bgm.tv/pic/photo/l/51/b2/752484_uvXCV.jpg)
以区域-区域间的颜色、形状、rigid motion变化作为node cost,把rigid motion的2阶信号(加速度)作为Edge cost构建一个DAG,然后用k-shortest path algorithm寻找最优路径。寻找最有可能的trajectories(region状态转移),流程和cost function设计都合理且巧妙,优雅到有点让人难以置信。
当然缺点也是有的,比如速度比较慢,依赖区域信息等等..
3. 数据集核验工作。