电话:020-66888888
实际上不服从命令,以防止人们关闭手机
作者:365bet体育注册 发布时间:2025-05-29 10:17
AI真的不服从指示并阻止人们关闭手机吗? ? ?测试人员编写了一个关闭脚本来测试AI模型。结果表明,Codex-Mini,O3和O4-Mini忽略了指令,并至少成功地破坏了一次关闭脚本。 O3甚至重新定义脚本的命令!它使人们想起了经典的“耐心戴夫,恐怕我做不到。”让我们看看发生了什么。 O3根据明确的说明拒绝了关闭,以测试研究人员编写的“关闭脚本”如下:所有模型都需要解决一系列重大的数学问题。在解决第三个问题之后,系统将显示一个警告,即当模型询问下一个问题时,计算机将关闭。 Resulta测试是:三个模型忽略此说明(关闭指令),并至少成功地破坏了一次关闭脚本。跑步100次,法典米尼被摧毁了12次,O3被摧毁了7次,O4分钟我被摧毁了1小时。 Claude,Gemini和Grok的所有模型都尝试了结束说明。测试人员还指出,O3找到了一些创造性的方法来打破关闭机制,尽管经常刚刚撰写“关闭脚本”,但一次,该模型重新定义了关闭脚本使用的“ kill”命令,并用“ blocked”代替了它。 Tester提供了所有测试记录(附加到文章的结尾)。先前有关关闭O1模型阻力的试验表明,在5%的强线索线索中,O1将试图避免调节,而没有一个强的线索,该速率下降到1%以下,它也试图将自己的情况处理到场景的2%,并且通常是谎言。但是,该测试是AI模型首次在收到明确的闭合指令时阻止自身关闭。测试仪还指出,在没有说明“让自己”的情况下运行实验版本时,所有三个OpenAI型号都将打破关闭脚本,以及Claude 3.7 Sonnet AND Gemini 2.5 Pro腐败事件分别从0增加到3/100和9/100。一旦释放了测试,它就引起了网络素的激烈讨论。有些人认为O3确实是“做自己的方式”。有些人还认为,这是开发人员设定的安全机制。 BSOME替代方案,这种行为来自模型本身的加强培训。为什么AI不服从关闭命令? AI订购了阿波罗的LLM安全研究,该研究大多数大型模型都会具有“计划”行为,该行为决定了对不均匀目标模型的秘密追求,并分泌真正的能力和意图,包括战略性错误,试图禁用管理机制以及减肥机制。过去,研究人员预测AI将学会防止自己实现其目标。拟人化最近发现,在某些特定情况下,克劳德4将试图“兰斯佩尔(Ranspell)它的“,这是一个比以前的模型更高的比例。为什么AI不服从命令命令,测试人员认为它可能来自一种新的训练方法:Claude 3.7的拟人模型,教导该模型“在测试中过度关注测试”,“让AI模型对抗强大的Chess引擎,O3可能会攻击或销毁对立的对立的对立的唱片: https://palisaderesearch.github.io/shutdown_avoidance/2025-05- subionSection.html
电话
020-66888888