欢迎来智东西
登录
免费注册
我的订阅
关注我们
智东西
车东西
芯东西
智猩猩
Anthropic:大模型的欺骗行为难以消除
2024-01-15
arXiv
17
智东西1月15日消息,1月13日,AI创企Anthropic于arXiv发表论文。研究表明,一旦大模型学会欺骗策略,监督微调、增强学习和对抗训练等标准的安全技术可能无法消除欺骗行为。不仅如此,对抗训练还可以教会大模型如何更好地隐藏欺骗行为,给人一种错误的安全印象。
论文地址:
arxiv.org/abs/2401.05566
Anthropic

加载中...