Upstash Vector,一个支持可扩展相似性搜索的向量数据库,对 1100 万篇维基百科文章进行了向量化,索引超过1.5亿个向量。该项目的目标是利用维基百科的数据创建一个语义搜索引擎和一个RAG(基于检索增强生成的)聊天机器人。维基百科因其丰富的信息库和易于获取的特点被选为数据源。
通过下载大规模的维基百科数据,将其清理并拆分成可管理的段落,然后使用 Upstash 提供的 BGE-M3 模型对这些段落进行嵌入处理。嵌入过程持续了近一周,最终生成了大约1.44亿个向量,覆盖了11种语言(英语、德语、法语、俄语、 西班牙语、意大利语、中文、日语、葡萄牙语、波斯语和土耳其语)。这些向量被索引到 Upstash Vector 中,实现了高效的语义搜索。