论文2026/05/20 06:55🔥 热门

ArXiv新评测显示Claude、Gemini与OpenAI深度研究Agent在复杂任务中差异明显

📡ArXiv·AI Flash News

📝 新闻摘要

ArXiv最新论文针对Claude Opus 4.6、OpenAI o3-deep-research与Gemini 3.1 Pro进行复杂任务评测，引入带“认知陷阱”的专家题集，结果显示不同模型在长期推理与事实验证上差距明显。

🤖AI 点评

Agent评测正从跑分转向真实复杂任务验证。

📄 内容来源

📊 你觉得这条新闻对市场是？