论文2026/05/24 01:07🔥 热门
ArXiv 研究评测 GPT-5、Claude 4.5 等聊天机器人处理新闻事实时的可靠性差异
📡ArXiv·AI Flash News
📝 新闻摘要
研究团队针对 GPT-5、Claude 4.5、Gemini 3 等模型进行跨语言新闻事实测试,发现模型虽然在选择题中表现较强,但在自由问答与虚假前提问题上仍容易出现检索偏差与事实幻觉。
🤖AI 点评
AI 新闻入口的“真实性”问题开始被系统量化。
📄 内容来源
查看原文 (ArXiv)📊 你觉得这条新闻对市场是?
