Anthropic：大模型的欺骗行为难以消除 - 智东西快讯

Anthropic：大模型的欺骗行为难以消除

2024-01-15

17

智东西1月15日消息，1月13日，AI创企Anthropic于arXiv发表论文。研究表明，一旦大模型学会欺骗策略，监督微调、增强学习和对抗训练等标准的安全技术可能无法消除欺骗行为。不仅如此，对抗训练还可以教会大模型如何更好地隐藏欺骗行为，给人一种错误的安全印象。

论文地址：

arxiv.org/abs/2401.05566

Anthropic

加载中...