用新鲜、真实的内容,自然地学习语言!

热门话题
按地区探索
人工智能初创公司伽利略科技 (Galileo Technologies) 在幻觉指数基准测试中将 Claude 3.5 Sonnet、谷歌的 Gemini 和阿里巴巴的 Qwen2-72B-Instruct 评为榜首。
人工智能初创公司伽利略科技 (Galileo Technologies) 在新的基准测试“幻觉指数”中对中端和开源大型语言模型进行了高度评价。
该基准评估了 22 种领先的生成式 AI 模型,并在三个任务集合中测量了它们的准确性。
Anthropic 的 Claude 3.5 Sonnet 位居榜首,而谷歌的 Gemini 1.5 Flash 则在成本方面表现最佳。
阿里巴巴的 Qwen2-72B-Instruct 是表现最佳的开源模型。
3 文章
AI startup Galileo Technologies ranks Claude 3.5 Sonnet, Google's Gemini, and Alibaba's Qwen2-72B-Instruct top in the Hallucination Index benchmark.