又一个AI搜索引擎诞生:Exa AI。该公司最近宣布获得了1700万美元的A轮融资,由Lightspeed领投,Nvidia的NVentures和Y Combinator参投。
与其他旨在取代谷歌的AI驱动搜索引擎不同,Exa的目标是创建一个专门为AI设计的搜索工具。
Exa的使命:
- 互联网包含人类的集体知识,但目前的搜索体验更像在垃圾场中导航,而非在知识图书馆中漫游。核心问题是互联网知识被大量信息掩埋。
- Exa的使命是组织世界的知识,通过更好的搜索算法,过滤信息,提取真正的知识。
Exa 的搜索引擎使用向量数据库和嵌入模型(embedding models)技术,训练模型来预测下一个相关链接,而不是下一个词。这个方法使Exa能够处理链接数据集,从而提供与众不同的搜索结果。
Exa能理解复杂查询,精确过滤互联网信息,通过使用嵌入模型(embedding models)将网页内容转换为数值列表,这种方法可以更好地理解和匹配查询内容,返回更符合实际需求的结果。
Exa的技术优势:
- Exa是首个网络级神经搜索引擎,使用端到端的Transformer技术(与ChatGPT相同的技术)进行过滤,按意义而非关键词进行筛选。
- 例如,搜索“startups working on climate change”在Exa上能返回真正从事气候变化工作的初创公司,而不是优化关键词的无关页面。
模型训练:
- Exa 的模型训练数据集包括网页上的共享链接,而非单纯的文字和句子。这使得其搜索引擎能更好地理解和预测网页链接的相关性。
- Exa的搜索引擎不只是预测下一个词,而是预测下一个相关链接。这意味着它的模型训练不是基于自然语言的连续词序列,而是基于网页链接的关系和结构。
- 换句话说,它的模型学习如何从一个链接导航到下一个相关链接,而不是生成连贯的文本。
- Exa 的训练方法注重预测最相关的链接,避免了传统搜索引擎中的SEO垃圾和AI生成的低质量内容。
主要功能和特点:
- 语义搜索:Exa的搜索引擎能够理解语义意义,而不仅仅是关键词匹配,从而提供更相关的搜索结果。
- 内容抓取:可以从任意网页抓取完整、清理后的内容,为AI提供高质量的数据。
- 相似性搜索:通过URL或长文本找到相似的结果,使得搜索更精准。
- 大规模数据处理:能够处理多达100万条搜索结果,满足AI大规模数据处理的需求。
- 实时更新:每分钟爬取新的URL,确保AI始终获取最新的数据。
- 强大的过滤功能:可以按域名、日期范围或数据类别进行搜索,提供高度定制化的搜索体验。
- 简单的API集成:Exa 提供简单易用的API,开发者只需几行代码即可集成和使用Exa的搜索功能。
Exa AI的技术原理
**1. 嵌入模型:
- 定义: 嵌入模型(embedding models)是将文本转换为高维数值向量(embedding)的模型。这些向量在数学上表示文本内容,使得相似内容在向量空间中靠得更近。
- 实现: Exa使用与ChatGPT相同的技术,训练嵌入模型,将网页内容转换为向量表示,从而使搜索过程更加智能和精确。
**2. 端到端Transformer模型:
- 定义: Transformer是一种神经网络架构,广泛用于自然语言处理任务。它通过自注意机制(self-attention mechanism)捕捉文本中各个部分之间的关系。
- 应用: Exa使用端到端的Transformer模型来过滤互联网信息,根据查询的实际意义而非关键词进行筛选。这种方法使得Exa能更好地理解复杂查询,提供更精确的搜索结果。
**3. 高效信息过滤:
- 问题: 传统搜索引擎(如Google)依赖关键词匹配,容易受到SEO优化内容的干扰,返回大量无关信息。
- 解决方案: Exa通过嵌入模型和Transformer技术,根据查询的实际意义过滤信息,避免无关和低质量的内容,返回真正相关的知识。
**4. 实时内容提取:
- 定义: Exa的“highlights”功能可以即时提取搜索结果中的网页内容,并根据用户需求自定义内容长度和数量。
- 实现: Exa在后台对完整网页进行分块和嵌入,使用段落预测模型(paragraph prediction model)来提取内容。这使得Exa能够在用户查询时即时提供高质量的搜索结果。
**5. 长查询处理:
- 能力: Exa能够处理长查询,包括句子、段落甚至整篇网页。这意味着用户可以提出更复杂和具体的问题,Exa依然能够返回精确的结果。
- 应用: 这对需要详细信息的研究工作、写作助手、学习工具等应用场景非常有用。
**6. 高质量检索:
- 需求: 大语言模型(LLMs)需要高质量的检索结果,以确保输出内容的质量。
- 实现: Exa为LLMs提供高质量的网络检索,过滤掉低质量和无关信息,确保LLMs的输出内容是高质量的。这使得Exa在AI应用中具有重要的地位。