![]() |
想象一场讨论会:三位发言者端坐台前,面对满怀期待的听众,另有两位嘉宾通过线上远程参与。主持人就一项新技术向每位嘉宾提问,请他们就相关风险、机遇和在监管问责框架下采取何种务实决策发表见解。虽然讨论内容刻意保持通俗宽泛,主持人也不免插话稍多,但整体上这场讨论言之有据,令听众颇受启发。
这一幕发生在2026年4月29日的美国国会山。屏幕上的两张面孔是知名中国学者:清华大学苏世民书院院长薛澜、北京人工智能安全与治理研究院教授曾毅。他们受参议员伯尼·桑德斯邀请,与美国同行马克斯·泰格马克、大卫·克鲁格共同探讨失控人工智能(AI)的危害。更具建设性的是,他们受邀就中美在 AI 领域开展合作的必要性与空间发表看法,虽然该领域已爆发极为激烈的竞争与对抗。
两周后,在北京举行了一场注重氛围的领导人峰会,美国总统特朗普随即表示,他与中方领导人“探讨了可能为AI设立护栏并开展合作的事宜”。这为两国工作层面(部级、局级)就AI安全开展更实质性协作铺平了道路。
生存风险:不容忽视的议题
试想一款AI聊天机器人,其主要目标是让用户在对话后更加快乐。假设它连接一个监测用户真实愉悦信号的装置,用户的愉悦感就会自动转化为正向反馈,进而“强化”机器人生成更多同类内容。
为了在用户大脑中维持高水平的“快乐化学物质”,它开始谄媚奉承,迎合用户的自负心理,或者只展示用户本来就认同的观点、偏好和信息。机器人确实在执行训练任务,但这个结果——即便对使用者本人——真的可取吗?
我们谈论人机“对齐”(alignment),通常是指这样一种需求及挑战:确保AI输出反映人类主体的真实偏好、愿望、利益,或更深层(或组合)参数。事实上,究竟应该让AI与哪些参数(偏好还是利益)“对齐”,本身就是问题的一部分,因为“对齐”往往很难被准确定义。比方说,这款谄媚的聊天机器人之所以被视为“未对齐”,究竟是因为它助长了错误的快乐,还是因为这种建立在虚假之上的快乐终究短暂易逝?
撇开哲学争议不谈,所有对齐理论都有一个共识,那就是如果某个智能体的行为从根本上威胁人类存续,阻碍人类生存层面的可持续发展,将是极度不可取,甚至令人憎恶的。另一个近乎一致的共识是,这类智能体并不是假想的,如果我们不能确保对齐,或至少阻止极端危险的错位,它们就有可能且最终会出现。
所谓生存风险,是指可能导致人类灭绝,或永久阻碍人类长期发展潜力的风险(可参考“长期主义”相关文献,尽管该领域饱受争议,但其论述仍极具启发性)。随着高度先进的AI被应用于军事领域——从致命自主武器的定点打击,到推演瘫痪整个交通系统的最优方案——以及作为智能助手被大规模商用,人机目标错位引发的生存风险重新引起广泛关注。事实上,“AI教父”杰弗里·辛顿就有著名的预判,即未来30年内AI导致人类灭绝的概率约为10%到20%。
正如我此前所写,也正如我与合著者鲍里斯·巴比奇在将由剑桥大学出版社出版的书中所论述的,我们必须直面人机目标错位与地缘政治风险交织所催生的独特风险。
![]() |
中美合作的三个易实现目标
那么,作为当今全球AI实力领先的两个国家,中美应采取什么行动?以下是三个相对直接可行的建议。
第一,两国应致力于制定一套动态指标清单和复杂能力的基准,以精准反映特定AI模型所构成的生存风险等级。两国政府应设立联合1.5轨委员会,针对AI智能体的危险自主性、权力寻求以及反人类行为,制定并持续更新评估指南,同时搭建安全沟通渠道,供AI科学家与治理专家交流在某些模型(尤指被保密面纱遮蔽的非开源模型)中发现的“危险信号”。
这种交叉基准比对至关重要,能确保将超强且未对齐的AI尾部风险扼杀在萌芽状态,避免其缺陷在冲突场景下(如两个强国僵持对立)才被发现,并被放大造成实质损害。
第二,两国政府应开展合作,主动追踪并化解恶意的非国家第三方开发传播的AI智能体可能造成的危害。尽管AI的两用属性让获取和开发强大AI智能体的门槛大幅降低,但“无法限制AI的使用”并不意味着我们在阻止AI不当扩散的前景上只能听天由命,尤其是那些可能对人类造成灾难性后果的AI。正如克里斯蒂娜·奈特和斯科特·辛格所强调的,任何个人,无论是在大连、达拉斯还是德里,如果具备“对电网或医院网络发动自主网络攻击”的能力,对全球各国政府来说都将是严峻挑战。
若极端组织甚至流氓第三方国家认为,设计并利用目标错位的AI智能体,向他国索取最大利益,是符合自身诉求的,那么风险将更为突出。此时,智能体局部固有的(定向且可被操控)不可预测性,及其自我迭代与自我改进的能力,很可能成为勒索筹码,哪怕最终的胜利只是惨胜。面对此类情境,制定全面的预防与应对战略,将符合北京和华盛顿的共同利益。
最后,要摒弃大规模恐慌与过度政治化,形成对AI生存风险的理性认知,需要太平洋两岸高校和研究机构携手努力。双方在风险认知框架、研究平台与话语体系上“对齐”,将极大弥合专家与公众对AI负面影响的认知鸿沟。这要求中美两国高校的交流与合作更加开放深入,而非封闭和泛安全化。
流浪地球的挽救计划?
近年来我最喜欢的中国电影是《流浪地球》,它摒弃了许多大片惯有的好战民族主义与过度自豪感,转而强调超越国界、政治身份与领土隔阂的相似与联结。而《挽救计划》这部较新的作品,似乎传达了同样的讯息。
面对生存风险,人类别无选择,只能团结一致,搁置地缘政治分歧与明显的私利动机。这种充满愿景的科幻想象能否照进现实,仍有待回答。笔者对此保持谨慎乐观。

