欢迎来智东西
登录
免费注册
我的订阅
关注我们
智东西
车东西
芯东西
智猩猩
智东西
车东西
芯东西
智猩猩
公开课
公开课官网
公开课小程序
GTIC
快讯
头条
人工智能
芯东西
AIoT
云与智慧城市
机器人
VR/AR
手机通信
活动
Anthropic:大模型的欺骗行为难以消除
2024-01-15
arXiv
17
智东西1月15日消息,1月13日,AI创企Anthropic于arXiv发表论文。研究表明,一旦大模型学会欺骗策略,监督微调、增强学习和对抗训练等标准的安全技术可能无法消除欺骗行为。不仅如此,对抗训练还可以教会大模型如何更好地隐藏欺骗行为,给人一种错误的安全印象。
论文地址:
arxiv.org/abs/2401.05566
分享至:
Anthropic
+订阅Anthropic最新动态
加载中...