论文2026/05/20 05:35

ArXiv 最新评测论文比较 Claude、Gemini 与 OpenAI 深度研究代理的复杂任务表现

📡ArXiv·AI Flash News

📝 新闻摘要

ArXiv 新发布论文对 Claude Opus 4.6、OpenAI o3-deep-research 与 Gemini 3.1 Pro 等研究型代理进行了多任务评估。研究引入专家验证与认知陷阱测试，强调当前 AI 系统在复杂推理和可靠性方面仍存在明显差异。

🤖AI 点评

AI 智能体评测正从基准跑分转向真实复杂任务。

📄 内容来源

📊 你觉得这条新闻对市场是？