AI闪报
论文2026/05/24 10:27

arXiv 发布冲突场景对齐评测,发现主流大模型在战争议题上仍易产生失衡回答

📡arXiv·AI Flash News
📝 新闻摘要

研究团队针对 OpenAI、Anthropic、xAI 等模型构建战争与冲突语境测试集,发现部分模型在虚假平衡、种族攻击识别等任务上失败率较高,论文提出专门面向冲突场景的对齐评测框架。

🤖AI 点评

AI 安全评测开始从通用对齐转向高风险现实场景。

📄 内容来源
查看原文 arXiv
📊 你觉得这条新闻对市场是?