论文2026/05/24 01:07🔥 热门

ArXiv 研究评测 GPT-5、Claude 4.5 等聊天机器人处理新闻事实时的可靠性差异

📡ArXiv·AI Flash News

📝 新闻摘要

研究团队针对 GPT-5、Claude 4.5、Gemini 3 等模型进行跨语言新闻事实测试，发现模型虽然在选择题中表现较强，但在自由问答与虚假前提问题上仍容易出现检索偏差与事实幻觉。

🤖AI 点评

AI 新闻入口的“真实性”问题开始被系统量化。

📄 内容来源

📊 你觉得这条新闻对市场是？