大模型的发展带火了向量数据库,一二级市场投资火热。今天就来看看相关行业情况,主要观点和数据来自西南证券,公司梳理来自Go-Goal互动问答。
一、向量数据库概览
英伟达CEO黄仁勋在3月的NVIDIA GTCKeynote中,首次提及向量数据库,并强调其在构建专有大型语言模型的组织中的重要性。
向量数据库是一种特殊的数据库,它专门用于存储和管理向量数据。向量数据是指由多个数值组成的数据,这些数值通常表示某种特征或属性。例如,一张图片可以表示为一个由像素值组成的向量,一个文本可以表示为一个由单词频率组成的向量。
向量数据库的主要特点是能够高效地存储和查询大规模的向量数据。它通常采用基于向量相似度的查询方式,即根据向量之间的相似度来检索数据。这种查询方式可以用于各种应用场景,例如图像搜索、音乐推荐、文本分类等。

市场规模方面,据Statista数据,2021年全球数据库市场规模为800亿美元,同比增长约20.3%。假设增速保持20%,预计到2025年,全球数据库市场规模将达到1658.9亿美元。
中国信通院测算,2020年中国数据库市场规模约241亿元;预计到2025年,中国数据库市场规模将达688亿元,复合增长率为23.4%。
预计2025年向量数据库渗透率约为30%,则全球向量数据库市场规模约为99.5亿美元,中国向量数据库市场规模约为82.56亿元。
产业方面,向量数据库产业链上游包括向量检索库、向量插件、向量字段等数据供应商以实现检索功能;中游即向量数据库服务提供商;由于向量数据库又分为开源和商业,下游使用者可分为个人开发者及付费企业。

二、产业地图
(1)海外
1)Pinecone
Pinecone总部位于纽约 , 专 为OpenAI的GPT-4等大型语言模型(LLMs)提供长期记忆服务。Vector Search专注于通过AI生成的内容表示进行存储和搜索。Pinecone为工程团队提供了搜索基础设施,以便在他们的应用序中实施人工智能搜索,无需构建自身或修改旧的基础设施。Pinecone是OpenAI、Cohere等LLM生成商的合作方 , 如今已有1500个客户, 下 一 步 可 能 将 与Shopify、Gong和Zapier等公司合作。
Pinecone可处理各类向量,进行高性能、低延迟和可扩展的向量的相似性搜索并提供易用API。工程师可以使用AI模型快速构建可扩展的应用程序,并将其快速投入生产。
2)Weaviate
Weaviate成立于2019年,目前在荷兰、美国、加拿大等地设有分支机构,拥有超过30名团队成员。
Weaviate源自 SeMI Technology,从最初的ING Labs中分离而来。创始人、首席执行官Bob VanLuijt、首席技术官Etienne Dilocker具有资深工程师经历,同首席运营官Micha Verhagen一起专注于实现民主化搜索。SeMI Technologies围绕其Weaviate开源解决方案提供服务托管、服务许可协议和支持等服务。
(2)A股相关上市公司(投资问答相关数据,部分)
云创数据、星环科技、每日互动、大华股份、创意信息、美亚柏科等







(3)国内未上市企业
Zilliz、达梦数据等
注:以上数据来源于Go-Goal金融终端、券商研报等。文中提及内容仅供参考,不构成任何投资建议。市场有风险,投资需谨慎。