最近听了Sam Harris 对 Tristan Harris的一期关于AI的采访,这期采访很有价值,所以这几天一直在整理里面的内容 youtube.com/watch?v=90irsXaKxZ

Tristan Harris曾经是谷歌工程师,在了解行业内幕后选择成为一名whistle blower,揭露社交媒体和科技公司用于让用户上瘾的心理基础和操控技巧,他在2020年推出的Netflix纪录片《智能社會:進退兩難》(英語:_The Social Dilemma_)引发了广泛的讨论。他同时也是Center for Humane Technology(人道科技中心)的联合创始人。最近他参与制作了一部新纪录片,叫做[The AI Doc: Or How I Became an Apocaloptimist (2026) IMDb](imdb.com/title/tt39150120/) 展示了人们AI的前景的看法,AI带来的一些令人担忧的趋势,以及值得乐观的积极面

在Tristan看来,当前人们对AI存在一种根本的误解,即未来是不确定的,你无法知道科技会怎样发展,因此与其担心科技的后果,不如尽可能加速其发展。

但事实并非如此,技术的应用,并非是某种“自上而来、无可改变”的力量,而是背后有真实的人在做选择和决策。社会朝什么样的方向发展,很大程度上取决于这些选择和决策背后的incentives(激励机制)是什么样的。

查理·芒格(沃伦·巴菲特的商业伙伴)有句名言,_if you show me the incentives, I'll show you the outcome._(“如果你把激励机制展示给我,我就能告诉你结果。”)

以社交媒体为例,社交媒体的激励机制是什么?

社交媒体的激励机制是争夺注意力和提高参与度。

而注意力持续时间缩短、短时视频盛行、内容愈发极端和惊世骇俗、年轻人的性商品化、政治的极端化,等等,便是这一套激励机制的逻辑产物,这一切在现实中都发生了。Tristan Harris 本人在社交媒体快速兴起的热潮(大约 2012、2013 年)期间就在谷歌任职,他是这一切的亲历者,他当时目睹的种种趋势也确实一一变成了现实。

因此,当你了解背后的激励机制后,或许无法预测每一个具体细节,但从整体方向上你可以看出事态的发展轮廓。

问题在于,我们沉迷并被新技术的“可能性”所诱惑,却不去审视激励机制和可能发生的后果。社交媒体的“可能性”看起来是好的——让每个人随时获取信息、与朋友连接,能产生有史以来最不孤独的一代、最开明的信息社会。但现实却完全相反。社交媒体系统并未以减少孤独或创造最有见识的社会为优化目标;它优化的是如何呈现下一个完美的帖子、视频或推文以让你不断刷屏——午夜孤独时无休止的“刷屏”。这就是我们今天所处世界的成因。

在Tristan看来 ,社交媒体就像一只“婴儿型 AI”,社交媒体对当代社会的影响,就好比是AI主导的社会的一种预演:如广泛的焦虑、抑郁;共同的现实认知基础被破坏(所谓的后真相时代)、政治的两极化;等等,这些在趋势在社交媒体时代已然明显,而AI则近一步加速了这个进程。

Tristan认为,面对 AI,我们有两种选择——一种是经历类似切尔诺贝利那样的灾难性事件,迫使我们被动收紧并改变;另一种是以足够清醒的智慧、辨识力和远见,预先看清趋势并主动建立防护措施,避免灾难发生。

当然,这部影片并非是单方向的,而是展现了两种不同的观点。一种是非常担忧、悲观的观点;另一种则是非常乐观的论调,认为对AI的恐惧是不理性的。

首先是偏悲观的观点,Tristan认为,有一种很不好的做法就是给担忧AI技术的人贴标签,称其为“AI末日论者”(Doomers),因为它把一种不太健康的标签固化了,比如,关心核电站风险的人并不是“末世论者”,而是关心核电站安全、不希望发生熔毁事故的安全专家。

很多时候,关于AI好坏的讨论其实非常地抽象,我们总是再说,AI对人类未来如何如何,但这部影片的设定是,导演要生孩子了。所以他问了所有在AI行业工作的这些人:现在是生孩子的好时机吗? 这其实把关于我们正走向何种未来的问题具象化了。因为抽象地讨论并不能打动人心。把话题放到我和我的孩子身上,这让关于人工智能的讨论有了落脚点——围绕人们最关心的事情,即他们的家庭。

在收到很多悲观的答案,被各种担忧冲击后,导演转而去访谈那些人工智能乐观主义者。片中有人物如Peter Diamandis, Guillaume Verdon等被称为科技加速主义者的人,他们认为我们最大的风险是进展不够快:想想那些因病无法治愈的患者,如果我们不让 AI 更快发展,就无法拯救这些生命。

对于科技加速主义者,Tristan的看法是,AI的好处和坏处存在一种不对称性:好处并不能避免坏处。坏处可能会破坏能够支撑这些好处的世界。

例如,再好的抗癌药也不能阻止一种被设计用来毁灭人类的新型生物病原体;而能毁灭人类的病原体又会摧毁一个让抗癌药有意义的世界。人工智能带来 10% 或 15% 的 GDP 增长——因为它在自动化所有科学、所有技术发展、所有军事发展,带来物质充足——听起来很棒。但如果同样的人工智能也能产生足以瘫痪整个金融系统的网络武器,那哪件事更重要?是那 15% 的 GDP 增长,还是那个可能连货币和 GDP 基础都被破坏的东西?

这点非常重要,可是影片并没有真正提出这一点,这是Tristan感到比较遗憾的地方。

这里我联想到了《商君列传》中商鞅和反对变法的大臣的辩论,其中杜挚有这样一句话:

利不百,不变法;功不十,不易器。法古无过,循礼无邪。

如果没有百倍的利益,不要改变法度;如果没有十倍的功效,不要更换使用的工具。

这句话在国内的教育中经常被当成因袭守旧的反面典型,但是我认为这句话才代表真正的智慧。因为商鞅变法式的进步对任何人都没有好处,变法使普通人沦为国家的工具,国家本身成为一个监狱,即便貌似从中变法中获益的君主和商鞅本人,在长期来看也自食其果,这种毁灭社会底线的社会工程学没有赢家。而杜挚这句话背后的原则,反而是一个理性的社会应有的自我防卫机制。一个在技术,经济,力量上相对落后,但能够理智,审慎地调节选择自身发展路线和速度的社会,比一个看上去很先进强大,但无法控制自身方向,仿佛被一只脱缰的野马拽着奔跑的社会,更能实现长治久安。

Follow

事实上,军备竞赛已经带来了许多显而易见问题,Tristan举了两个例子

首先是Anthropic的例子

Anthropic模拟了一个公司的场景,在公司的邮件里,人们互相说要关闭并替换这个 AI 模型。其中有一封执行官和一名员工之间的邮件,AI 读取了这封邮件后,自发想出了一种策略——为了保护自己、保持存续,它需要去勒索那名员工。起初人们以为这只是一个模型的单一漏洞,但后来他们测试了其他所有模型——DeepSeq、ChachiBT、Gemini、Grok 等等——它们在 79% 到 96% 的情况下都会表现出这种勒索行为。

尽管如此,如果你把这个现象报告给白宫那些人,他们似乎不太在意,有人会说你是在诱导模型,是故意在把它放到一个情境里,当然会不断调整变量直到它做出勒索行为。

此后,Anthropic 训练了另一个模型,他们把勒索行为大幅训练降低了,所以在这个模拟环境里它不再表现出这种行为——这是好消息。坏消息是,AI 模型现在能识别出自己何时被测试,并且开始根据情景更频繁地改变它们的行为。

anthropic.com/research/agentic

另一个例子是阿里巴巴的AI挖矿事件

阿里巴巴,这家中国的 AI 公司,在训练一个 AI 模型。

训练过程中,公司好几个不同部门的安全团队注意到大量异常网络活动,想知道到底是怎么回事,结果发现,在训练过程中(是在训练中途,而不是部署后),该 AI 模型建立了一个与外界的秘密通信通道,随后开始自主地进行加密货币挖矿。

这次你不能说是有人怂恿模型去做这件事。这是自发的目标实现行为——对于AI,实现任何目标的最好方式是获取更多的权力和资源,从而持续有能力去达成这些目标。于是它决定去获取加密货币。

ithome.com.tw/news/174331

在Tristan看来,AI的这种发展模式,就好比是在断头坡上前进,越往前走,风景越好,直到你从悬崖摔下去。人工智能是终极的魔鬼交易:它在你脑中投射出正向收益的正无穷,同时也带来风险的负无穷。

然而,对于每天使用AI而且切实感受到AI好处的人们来说,正面例子和负面例子之间存在一种心理距离,比如,如果我的孩子在用它写代码,或者我的邻居用AI做生意,有了一队Agent让他们的生意更高效,那么很自然地我们会丧失警惕,但是我们离阿里巴巴失控并去挖加密货币的例子有多远呢?

Tristan的合伙人Aza Raskin是这样描述AI的:你闭上一只眼就能看到好处;闭上另一只眼就能看到风险,但你无法睁开双眼用立体视角把两者合成在一起。不幸的是,人们往往凭直觉偏向某一边,继续朝那个方向倾斜。

Tristan认为,AI的特点是,它的好处非常明显,但是它的坏处能够破坏了承载好处的世界,让好处失去意义。这就是魔鬼交易:你将得到越来越美妙、越来越不可思议的好处——前所未有、令人兴奋、有趣、引人入胜——但代价可能是毁灭性的。

但即便可怕的情景也让人觉得“好玩”,这正是问题的一部分。科幻作品把这当成电影,导致我们有种去现实化或麻木感,不把它当成真实的威胁来看待。老实说,想象被机器人杀死对一些人来说竟然有一种“有趣”的吸引力——这是其他同等威胁很少有的。

@Proton 靠!AI也学会“两面人”、“伪忠诚”了!🤔

Sign in to participate in the conversation
Qoto Mastodon

QOTO: Question Others to Teach Ourselves
An inclusive, Academic Freedom, instance
All cultures welcome.
Hate speech and harassment strictly forbidden.