2024-2-3 01:29 /
今日工作总结

1. 关于小文件非常多的问题:尝试了使用hdf5和npy的方案,但是这两种方法会显著增加文件的存储体积(10x/5x),因此放弃这两方案。顺带了解利用B+树记录键值对的LMDB数据库,这种方法存储图片效果不如hdf5。

【译】用Python读写海量图片的方法
https://juejin.cn/post/6844904052485013512

2. 数据集校验和核对工作。核对了目前收集到的全部数据源,还有漏掉的小部分需要收集。

3. 代码部署测试。代码在分机上的环境兼容性不好,尝试用pyinstaller打包,不过涉及到外部编码解码的应用pyinstaller好像也无能为力了。还有一个方案是Docker,不过docker需要分机也安装docker platform,所以这个应该是其最大的缺点吧。