2024-3-15 14:39 /
今日工作总结

1. 和朋友交流项目的conceptualization. 之前的想法是做一个类似于AutoCLIP那样的triplets contrastive loss, 但是总感觉ts本身的稀疏性和非1-to-1 mapping的语义信息让整个方法不是非常可靠。和朋友交流过后把问题简化了一层,做一个conditional的predictor或者classifier可能更合适。

2. 测试dataset和dataloader的代码,dataloader在return多模态tuple的时候default的collate_fn总是会报错,还需要自己写这个function.

3. text detection和captions的回收和清洗。目前所有的数据label都已经收集完成了,剩下的就是技术活了

4. 数据集的收集工作