懒人每天5分钟—TextToImage搜索引擎

背景:

1.国外搞原型基础研究,我们只负责实现快速应用商业变现"赚钱遨游世界买房子"

2.利用huggingface等上的文本(text),audio(语音),video(视频)识别开源模型

3.懒人每天5分钟系列文章:一种套路(embedding model非结构化数据+vectorDB向量数据库),广泛解决用户内容推荐,知识产权甄别侵权,异常侵入检测告警等很广泛场景应用问题

4.”大千世界“皆可向量化

5.因为本人也偷懒没有自己画架构图(Milvus上有很好的例子场景举例)借抛砖引玉解析原理套路疑问。

声明:懒人系列文章插图皆来自Milvus官方网站。如需引用,请标明出处。

大家用过stable diffusion模型的话根据文字描述生成图片,此文利用CLIP(可以去

https://huggingface.co/models查找相似模型)

懒人每天5分钟—TextToImage搜索引擎

对图片做特征抽取向量化存储到向量数据库(milvus/qdrant),如下图的黄色箭头部分,函数代码:

.map('img', 'vec', ops.image_text_embedding.clip(model_name='clip_vit_base_patch16', modality='image'))

懒人每天5分钟—TextToImage搜索引擎

利用相同的CLIP对输入的文本向量化后进行相似性搜索,返回相似度相近的图片,如上图红圈部分,函数代码入下:

.map('text', 'vec', ops.image_text_embedding.clip(model_name='clip_vit_base_patch16', modality='text'))

最后看看图片被向量化后存储格式vec:

懒人每天5分钟—TextToImage搜索引擎