懒人每天5分钟—TextToImage搜索引擎

背景：

1.国外搞原型基础研究，我们只负责实现快速应用商业变现"赚钱遨游世界买房子"

2.利用huggingface等上的文本(text)，audio(语音)，video(视频)识别开源模型

3.懒人每天5分钟系列文章:一种套路(embedding model非结构化数据+vectorDB向量数据库)，广泛解决用户内容推荐，知识产权甄别侵权，异常侵入检测告警等很广泛场景应用问题

4.”大千世界“皆可向量化

5.因为本人也偷懒没有自己画架构图(Milvus上有很好的例子场景举例)借抛砖引玉解析原理套路疑问。

声明:懒人系列文章插图皆来自Milvus官方网站。如需引用，请标明出处。

大家用过stable diffusion模型的话根据文字描述生成图片，此文利用CLIP(可以去

https://huggingface.co/models查找相似模型)

懒人每天5分钟—TextToImage搜索引擎

对图片做特征抽取向量化存储到向量数据库(milvus/qdrant)，如下图的黄色箭头部分，函数代码：

.map('img', 'vec', ops.image_text_embedding.clip(model_name='clip_vit_base_patch16', modality='image'))

懒人每天5分钟—TextToImage搜索引擎

利用相同的CLIP对输入的文本向量化后进行相似性搜索，返回相似度相近的图片，如上图红圈部分，函数代码入下：

.map('text', 'vec', ops.image_text_embedding.clip(model_name='clip_vit_base_patch16', modality='text'))

最后看看图片被向量化后存储格式vec：

懒人每天5分钟—TextToImage搜索引擎