Inflection AI发布Inflection-2.5版本模型 只用了四成功力就匹敌GPT 4性能,具有高智商和高情商!
而且可以联网查询内容了!
目前已经登陆Pi聊天机器人,大家可以试玩!升级后的模型,可以与世界上所有领先的LLM,如GPT-4和Gemini竞争。它将模型原始能力与Pi独特的个性和独有的同理心细调相结合。Inflection-2.5现在已经对所有Pi的用户开放。
Inflection-2.5的主要功能特点包括:
1. 高效能力与低计算成本:Inflection-2.5在保持接近GPT-4性能的同时,仅使用了40%的训练计算量,展示了其在AI领域的高效性和创新技术。
2. IQ与EQ的结合:该模型不仅在智能方面(如编程和数学)取得了显著进步,还保持了Pi的同情心和人性化特质,提供有情感理解和响应能力的个人AI体验。
3. 实时网络搜索能力:整合世界级的实时网络搜索功能,确保用户能够获得高质量的、最新的新闻和信息,进一步增强了用户体验和交互的即时性。
4. 广泛可用性:Inflection-2.5对所有Pi用户开放,支持多平台使用,包括iOS、Android和桌面应用,提高了用户访问和体验的便利性。
5. 显著的用户参与度和满意度:根据Inflection的报告,Inflection-2.5的推出显著提升了用户情绪、参与度和留存率,促进了公司的有机用户增长,这反映了其作为个人AI的有效性和受欢迎程度。
基准测试结果
-
- MMLU基准测试:Inflection-2.5在MMLU基准测试上相比Inflection-1显示了显著的性能提升。MMLU测试覆盖了从高中到专业级难度的多样化任务。
- GPQA Diamond基准测试:评估了Inflection-2.5在这一极具挑战性的专家级基准测试上的性能。
- 匈牙利数学考试和物理GRE考试:Inflection-2.5在匈牙利数学考试和物理GRE考试(一个物理学研究生入学考试)上的表现,显示了其在数学和物理学领域的高水平能力。在物理GRE考试上,Inflection-2.5在maj@8下表现达到了人类考生的85百分位,在maj@32接近最高分。
- BIG-Bench-Hard:Inflection-2.5在BIG-Bench的难题子集上比Inflection-1提高了超过10%,与最有能力的模型具有竞争力。
- MT-Bench:在评估MT-Bench后,发现约25%的理由、数学和编码类别的示例存在不正确的参考解决方案或问题设定上的缺陷。修正后的数据集版本表明,Inflection-2.5的表现更符合其他基准测试的预期。
- 编码性能提升:在MBPP+和HumanEval+两个编码基准测试上,Inflection-2.5相比Inflection-1取得了巨大的进步。
- 常识和科学基准:Inflection-2.5在HellaSwag和ARC-C等常识和科学基准测试上也表现出强劲的性能。