人工智能初创公司伽利略科技 (Galileo Technologies) 在幻觉指数基准测试中将 Claude 3.5 Sonnet、谷歌的 Gemini 和阿里巴巴的 Qwen2-72B-Instruct 评为榜首。

人工智能初创公司伽利略科技 (Galileo Technologies) 在新的基准测试“幻觉指数”中对中端和开源大型语言模型进行了高度评价。 该基准评估了 22 种领先的生成式 AI 模型,并在三个任务集合中测量了它们的准确性。 Anthropic 的 Claude 3.5 Sonnet 位居榜首,而谷歌的 Gemini 1.5 Flash 则在成本方面表现最佳。 阿里巴巴的 Qwen2-72B-Instruct 是表现最佳的开源模型。

July 29, 2024
3 文章