目录
背景
训练素材
download
torchvision 简介
python代码
执行结果
模型训练
模型训练参数
训练模型
注意事项
模型加载
录入vectorDB
使用预加载的模型参数对图片进行编码
录入milvus
查询效果
查询编码
milvus search
模型适用列表
总结
应该说Milvus 在2.4以上版本提供了一个 collection 放多个 vector db 的功能,并在之上 query 时,可以结合多个不同的query weights 给出综合性得分。但是不是一定要用这个功能才可以完成图片与文本的交互式搜索?答案肯定是否定的。从CLIP的原理上来说,就是 txt 与 pic 映射到相同维度的一个向量空间,只要让 txt 与对应的 pic 的 similarity 足够小,与不mapping 的pic simlairty足够大就好,于是本着这个思路,我们看看怎么实现。
首先下载
pip install torchvision -i https://pypi.tuna.tsinghua.edu.cn/simple
Torchvision是Pytorch中一个开源的机器学习框架,专门为计算机视觉任务设计和优化。它提供了多种功能来支持计算机视觉项目的开发和实验。
简要来说有如下的功能:
数据加载与处理:
Torchvision提供了torchvision.datasets模块,其中包含了许多常用的计算机视觉数据集,如CIFAR-10、CIFAR-100、ImageNet等。torchvision.transforms模块提供了许多预处理功能,如裁剪、旋转、翻转、归一化等,这些功能可以帮助进行数据增强和预处理。
预训练模型: