价值对齐反映了对人类智能与人工智能关系进行简化的理论惰性,其本质潜藏着一种价值维度上的人类中心主义投射,同时也体现了人类在技术自治性面前的不安感。价值对齐是一种企图将所有的技术-社会的复杂性问题都置于“价值偏差”的系统性盈余中予以整体性解决的技术治理方法。然而,将人类价值观嵌入人工智能系统,一方面会使得技术的发展成为最小化人类责任的借口;另一方面,这种话语以一种抽象性的人机价值差异掩盖了人工智能技术发展全过程中的价值性因素,从而以价值排他性的方式将人工智能的“问题”建构为一种绝对意义上的外在,使得关于价值的讨论只逡巡在人机的边界之上,而不向人类内部返回。从这个意义上来说,人工智能已经建构起来的社会历史中的价值无意识和不平衡的数据分布现实,是一个关于“具有自主性的智能体应该和不应该被如何设计”的问题。因此,人工智能的价值判断基础应当由外在的价值嵌入转向具身认知和知觉能力的形成。只有通过有效的人机交互与环境感知,打造开放式人机生态体系,鼓励开发与人类处于更广泛的目的分享和责任分担的人工智能,才能防范由技术所导致的任何形式的垄断。吴静,南京师范大学公共管理学院哲学系教授、博士研究生导师,南京师范大学数字与人文研究中心主任
这无疑是一个看起来很美好的目标。它寄希望于在意图和价值观方面对人工智能进行“类人驯化”,以使其达到从意义上理解人类行为和选择并予以遵从的目的。简单来说,就是使建立在庞大的、多元化数据集基础上的大模型预训练结果既合法又合乎道德。从业界在这方面的努力来看,2023年7月,AIGC的领军企业OpenAI宣布成立一个新的AI对齐团队,这个超级对齐团队(superalignment)的目标是在4年内让超级AI系统实现价值对齐和安全。为此,OpenAI承诺将投入20%的计算资源用于对齐超级智能,而项目的核心则是训练出一个大致与人类智识水平相当的AI自动对齐研究员,再借助自动对齐研究员找出对齐超级智能的方法。除此之外,谷歌、微软等公司也都纷纷跟进,成立了类似团队,将价值对齐作为寻求人工智能安全性和一致性的重要途径之一。一时之间,价值对齐的口号风头无两。
一、“科学”与“价值”的虚假对立:人工智能责任的不对称性 印度比拉理工学院的机器人模拟专家阿卡普拉沃·包米克在谈到具有自主性的AI智能体设计需要遵循的原则时,特别强调了只有从具身认知的特性、而不是抽象的人机对立原则出发才能有所突破。由于认知本身是基于同智能体自身所处的环境之间的交互而形成的,它首先具有情境性,并且这种情境性认知会建立起一个随着时间压力而推进的连续的进化响应,从而动态地生成适合于情境的价值判断或行动。这种认知模型本身不具有泛化扩展性,因此只能以环境反馈的方式进行补偿,而无法“完全形成对相关行为的系统响应”。这也就解释了为什么Gemini的研发团队在试图纠正训练数据集的数据分布不均衡所导致的种族主义偏差时,为什么会引发更显而易见的错误。它同时也导向了一个价值对齐的拥护者们容易回避的问题:对齐行为的效果并不如器官移植一般理想,它更像是基因修改,其下游的风险难以预测。因为“被设计的伦理/价值”在何种意义上可以与持续性的智能体-环境交互系统始终保持自洽,这本身就是一个需要证明的命题。与现实情境中的价值多元相对应,其实并不存在抽象的有益于“人类”的唯一价值。特定的价值总是使一些人受益而损害另外一些人的利益。每一个具体的价值判断都依赖于上下文信息和在不同的规范性领域(如道德、习俗、认知和政治)进行协调行动的技巧,而不是某种作为标准方案的规范性的“对齐”。“没有什么可以保证标准解决方案所呼吁的建立只重视人类的人工智能的普遍政策得到普遍实施。在一个利益竞争和许多坏行为者的混乱世界里,标准的解决方案看起来像是一种冰冷的安慰”。“对齐”的设想更接近波普尔所批评的社会改造的“乌托邦策略”,只不过这一次是赛博属性的,它以维护理想价值原则作为控制论的首要原则,从而必然导致实践中的教条主义和独断论。而且,对首要原则和总体策略的任何质疑,都有可能导致颠覆性的结果;使得哪怕是技术性的纠错,都要耗费巨大的社会成本(尤其考虑到数字技术和人工智能的普及),甚至是彻底失败。 从根本上而言,具身智能就是让人工智能获得“身体”——它不是指形式上的身体,而是具备感性经验获得能力的身体。正如人类的认知是基于对感官所获得的信息进行加工的过程一样,具身智能的发展思路是试图帮助人工智能从对情境的实时交互中形成符号理解的过程,它是将认知置于环境中,形成连续的进化响应的过程。简单地讲,具身人工智能将不再像传统人工智能那样对相关条件和行为进行对应反应,而是和人类理解世界的方式类似,通过传感设备获得的第一手环境信息(声音、影像、触觉、温度甚至表情等),建立起实时、动态的完整符号模型。其认知和理解不再是“离线”式的,而是满足时间压力的持续交互状态。这种心智仿真结构所形成的智能体将是一个与情境不可分离的开放网络。 一些国际机构已经发布了政策,试图明确人工智能系统在设计时应遵守的伦理原则。例如,欧盟已经确定了关于使用人工智能的四项道德原则:无恶意、尊重自主权、算法公平和透明性。美国白宫科学技术办公室提出的原则略有不同,其中特别强调了人类有选择不与人工智能互动的权利,这一点其实是对自主权内涵的进一步扩大,也是对人类个体的独特性和自治性的保护,即人类有权决定不受人工智能的影响而采取符合自己判断的自主行动。从这个意义上来讲,通过施加对人工智能的价值对齐进而将设计的伦理原则施加于人类社会的做法,本身就是价值殖民的一种改版。这一结论并不夸张。从技术实践的层面来看,能够有效地在现有大模型中推进价值嵌入和价值对齐的,通常都是在技术、数据和算力上占据优势的大型科技公司,OpenAI、谷歌的DeepMind之前都建立了专注于解决价值对齐问题的团队(然而,前者刚刚宣布对其予以解散,后者的成效还需要进一步验证)。考虑已开发的人工智能的应用广度和深度,技术决定论似乎又一次在价值领域以一种奇异的姿态发挥了作用,它使得头部从业者不但可以主导市场,甚至可以主导人类社会。现实有可能变成:谁掌握了最先进/应用最广的人工智能,谁就拥有了实现价值对齐的权力,谁也就拥有了界定人类价值和人类普遍利益的权力。从而,结果有可能是,人工智能技术的掌握者不但以特定的价值实现了对AI的“对齐”,而且更以后者的无所不在、以技术无意识的方式实现对人类群体的普遍性对齐。这种价值观的扩展方式是历史上任何政治文化方案都无法实现的。 结语 因此,人工智能的价值对齐问题从本质上来说,既涉及对智能应用过程中出现的问题和风险的评估,也涉及对所谓“人类价值原则”及其规范可能的理解。后者至今仍然停留在争议之中,而前者则是整个社会的智能化转型所面对的挑战。今天,简单化的人机关系理解模式已经无法理解泛在的人工智能对人类社会的整体性重塑,在现有实践和未来趋势中,人机协作智能是进一步回答“人类如何面对人工智能时代到来”问题的基础性认识。人类智能和人工智能具有不同的特点和优势,这也就意味着人机协作和融合在不同的程度和场景中可以有个性化的应用。与单纯强调人工智能的超越性相比,协作智能的类型和开放性具有更广阔的前景和潜力。重新连通效率与公平、性能与价值、情境性与普遍性、全球性与地方性,这也是后人类知识图谱生成的方式之一。参考文献[1][加]威廉·莱斯.自然的控制[M].岳长龄,译.重庆:重庆出版社,)1996:6.[2][法]布鲁诺·拉图尔.我们从未现代过:对称性人类学论集[M].刘鹏,安涅思,译.上海:上海文艺出版社,)2022.[3][德]乌尔里希·贝克.风险社会——新的现代性之路[M].张文杰,何博闻,译.上海:译林出版社,2021:23.[4][美]朱迪斯·巴特勒.身体之重:论“性别”的话语界限[M].李军鹏,译.上海:上海三联书店,2011:10.[5]贾开,)赵静.技术嵌入、价值倾向与算法分类治理[J].经济社会体制比较,)2023(4):400-966-8255(家电维修号码分享).[6]刘永谋.技术治理通论[M].北京:北京大学出版社,2023:579.[7]郭全中,)张金熠.AI向善:AI大模型价值观对齐的内容与实践[J].新闻爱好者,)2023(11):19-24.[8][印]阿卡普拉沃·包米克.机器意识[M].王兆天, 李晔卓,译.北京:机械工业出版社,2023.[9]Ratoff William. Can the predictive processing model of the mind ameliorate the value-alignmen tproblem? [J]. Ethics and information technology,)2021,)23 (4): 400-966-8255(家电维修号码分享).[10][美]尼尔·波斯曼.技术垄断:文化向技术投降[M].何道宽,译.北京:中信出版集团,2019:121.[11][德]彼德·斯洛特戴克.资本的内部[M].北京:社会科学文献出版社,)2014:275.[12][美]亨利·基辛格,)埃里克·施密特,)丹尼尔·胡滕洛赫尔.人工智能时代与人类未来[M].胡利平,风君,译.北京:中信出版集团,2023:117.[13]James Gips. Towards the ethical robot[M]∥Android epistemology. Cambridge,) MA:MIT Press,) 1994:284.[14]吴冠军.从Midjourney到Sora:生成式AI与美学革命[J].阅江学刊,)2024(3):85-92. 【本文原载于《华中科技大学学报(社会科学版)》2024年第5期,澎湃新闻经授权转载】









