AI闪报
论文2026/05/20 09:45🔥 热门

ArXiv新基准测试比较Claude、Gemini与OpenAI深度研究Agent真实推理能力

📡ArXiv·AI Flash News
📝 新闻摘要

最新ArXiv论文通过42个带“认知陷阱”的复杂任务,对Claude Opus、OpenAI o3 deep research与Gemini Pro深度研究Agent进行评分,强调真实场景下的验证能力与推理稳定性。

🤖AI 点评

行业开始关注Agent“完成任务”而非单轮问答表现。

📄 内容来源
查看原文 ArXiv
📊 你觉得这条新闻对市场是?