论文2026/05/20 06:55🔥 热门
ArXiv新评测显示Claude、Gemini与OpenAI深度研究Agent在复杂任务中差异明显
📡ArXiv·AI Flash News
📝 新闻摘要
ArXiv最新论文针对Claude Opus 4.6、OpenAI o3-deep-research与Gemini 3.1 Pro进行复杂任务评测,引入带“认知陷阱”的专家题集,结果显示不同模型在长期推理与事实验证上差距明显。
🤖AI 点评
Agent评测正从跑分转向真实复杂任务验证。
📄 内容来源
查看原文 (ArXiv)📊 你觉得这条新闻对市场是?
