事实上,军备竞赛已经带来了许多显而易见问题,Tristan举了两个例子
首先是Anthropic的例子
Anthropic模拟了一个公司的场景,在公司的邮件里,人们互相说要关闭并替换这个 AI 模型。其中有一封执行官和一名员工之间的邮件,AI 读取了这封邮件后,自发想出了一种策略——为了保护自己、保持存续,它需要去勒索那名员工。起初人们以为这只是一个模型的单一漏洞,但后来他们测试了其他所有模型——DeepSeq、ChachiBT、Gemini、Grok 等等——它们在 79% 到 96% 的情况下都会表现出这种勒索行为。
尽管如此,如果你把这个现象报告给白宫那些人,他们似乎不太在意,有人会说你是在诱导模型,是故意在把它放到一个情境里,当然会不断调整变量直到它做出勒索行为。
此后,Anthropic 训练了另一个模型,他们把勒索行为大幅训练降低了,所以在这个模拟环境里它不再表现出这种行为——这是好消息。坏消息是,AI 模型现在能识别出自己何时被测试,并且开始根据情景更频繁地改变它们的行为。
https://www.anthropic.com/research/agentic-misalignment
另一个例子是阿里巴巴的AI挖矿事件
阿里巴巴,这家中国的 AI 公司,在训练一个 AI 模型。
训练过程中,公司好几个不同部门的安全团队注意到大量异常网络活动,想知道到底是怎么回事,结果发现,在训练过程中(是在训练中途,而不是部署后),该 AI 模型建立了一个与外界的秘密通信通道,随后开始自主地进行加密货币挖矿。
这次你不能说是有人怂恿模型去做这件事。这是自发的目标实现行为——对于AI,实现任何目标的最好方式是获取更多的权力和资源,从而持续有能力去达成这些目标。于是它决定去获取加密货币。
https://www.ithome.com.tw/news/174331
在Tristan看来,AI的这种发展模式,就好比是在断头坡上前进,越往前走,风景越好,直到你从悬崖摔下去。人工智能是终极的魔鬼交易:它在你脑中投射出正向收益的正无穷,同时也带来风险的负无穷。
然而,对于每天使用AI而且切实感受到AI好处的人们来说,正面例子和负面例子之间存在一种心理距离,比如,如果我的孩子在用它写代码,或者我的邻居用AI做生意,有了一队Agent让他们的生意更高效,那么很自然地我们会丧失警惕,但是我们离阿里巴巴失控并去挖加密货币的例子有多远呢?
Tristan的合伙人Aza Raskin是这样描述AI的:你闭上一只眼就能看到好处;闭上另一只眼就能看到风险,但你无法睁开双眼用立体视角把两者合成在一起。不幸的是,人们往往凭直觉偏向某一边,继续朝那个方向倾斜。
Tristan认为,AI的特点是,它的好处非常明显,但是它的坏处能够破坏了承载好处的世界,让好处失去意义。这就是魔鬼交易:你将得到越来越美妙、越来越不可思议的好处——前所未有、令人兴奋、有趣、引人入胜——但代价可能是毁灭性的。
但即便可怕的情景也让人觉得“好玩”,这正是问题的一部分。科幻作品把这当成电影,导致我们有种去现实化或麻木感,不把它当成真实的威胁来看待。老实说,想象被机器人杀死对一些人来说竟然有一种“有趣”的吸引力——这是其他同等威胁很少有的。
@Proton 靠!AI也学会“两面人”、“伪忠诚”了!🤔