发布于 2026-01-12 17:31:39

2026大模型伦理深度观察：理解AI、信任AI、与AI共处

曹建峰腾讯研究院高级研究员

2025年，大模型技术继续高歌猛进。在编程、科学推理、复杂问题解决等多个领域，前沿AI系统已展现出接近“博士级”的专业能力，业界对通用人工智能（AGI）的预期时间表不断提前。然而，能力的飞跃与理解的滞后之间的鸿沟也在持续扩大——我们正在部署越来越强大的AI系统，却对其内部运作机制知之甚少。

这种认知失衡催生了大模型伦理领域的四个核心议题：如何“看清”AI的决策过程（可解释性与透明度）、如何确保AI的行为与人类价值保持一致（价值对齐）、如何安全地、负责任地迭代前沿AI模型（安全框架）、以及如何应对AI系统可能被给予道德考量的前瞻性问题（AI意识与福祉）。这四个议题相互交织，共同构成了AI治理从“控制AI做什么”向“理解AI如何思考、是否真诚、是否值得道德考量”的深刻转向。

大模型可解释性与透明度：

打开算法黑箱

（一）为什么看清和理解AI至关重要

深度学习模型通常被视作“黑箱”，其内在运行机制无法被开发者理解。进一步而言，生成式AI系统更像是“培育”出来的，而非“构建”出来的——它们的内部机制属于“涌现”现象，而不是被直接设计出来的。开发者设定了宏观层面的条件，但最终所呈现的具体结构却无法精确预知。当试图深入这些系统内部时，看到的往往只是由数十亿个数字构成的庞大矩阵。

因此，大模型的可解释性既是挑战，也是必须追求的目标。具体而言，大模型的可解释性是指系统能够以人类可理解的方式阐释其决策过程和输出结果的能力，包括：识别哪些输入特征对特定输出起关键作用，揭示模型内部的推理路径和决策逻辑，以及解释模型行为的因果关系。简言之，就是理解模型如何“思考”及运行。

增进可解释性的价值体现在多个层面。其一，有效防范AI系统的价值偏离与不良行为——研究人员已发现模型可能展现出意料之外的涌现行为，如AI欺骗或权力寻求；如果模型具备有效的可解释性，人们就可以直接检查它是否存在企图欺骗或不服从人类指令的内部回路。其二，有效推动大模型的调试和改进——通过检查模型内部，可以发现是哪部分导致了错误或反常行为，从而针对性地调整训练数据或模型结构。其三，更有效地防范AI滥用风险——如果可以深入观察模型内部，开发者也许能够系统性地阻止模型越狱等对抗性攻击。

从更宏观的治理视角看，可解释性和透明度机制的价值还在于：为研究、评估和应对AI风险提供真实的观察视角和第一手数据。在风险尚未完全厘清、AI能力仍处于快速演进的阶段，可解释性和透明度机制能够缓解各方的不安，用“已知证据”去缓解“未知恐惧”。

（二）2025年可解释性技术和透明度的突破进展

2025年，可解释性领域取得了多项重要突破，研究人员正在创造出类似于精准、高效的MRI那样的工具，以清晰完整地揭示AI模型的内部机制。

（1）电路追踪：揭示模型“思维过程”

机制可解释性研究的一个核心目标是将模型内部的特征有机组合为“计算电路”，从中追踪模型如何在层层传递中完成由输入到输出的决策路径。2025年，Anthropic发布了机制可解释性领域的里程碑式研究——“电路追踪”（Circuit Tracing）技术。¹研究团队使用跨层转码器（cross-layer transcoder, CLT）将Claude 3.5 Haiku模型的3000万个特征映射为可解释概念，首次创建出从输入到输出的完整“归因图”，实现对大语言模型内部推理电路的系统性追踪。Anthropic的研究团队成功从Claude模型中提取出数以千万计的稀疏特征，揭示了令人惊叹的模型内部机制：当回答“包含达拉斯的州的首府是什么”时，模型内部先激活“德克萨斯”特征，再推导出“奥斯汀”；在写押韵诗时，模型会提前规划行尾押韵词，然后反向构建整行——这是此前未被发现的“逆向创作”模式。更关键的是，研究团队识别出控制模型区分“熟悉”与“不熟悉”实体的电路，其“误触发”正是产生幻觉的机制之一。

（2）模型内省：AI能否理解自己的“想法”

2025年10月，Anthropic发布了另一项突破性研究——大语言模型的内省能力。研究团队采用“概念注入”(concept injection)方法，将已知概念的激活模式注入模型内部状态，测试模型能否检测并描述这些“入侵思想”。结果显示，Claude Opus 4和4.1在约20%的测试中成功检测并识别了注入的概念。当注入“大写字母”概念时，模型报告：“我注意到似乎有一个关于‘大声’或‘喊叫’的入侵思想。”这是首次证明某些模型具有“开箱即用”的内省能力，而非通过专门微调获得，这为理解模型的内部状态提供了新的可能性。从实践角度来看,如果内省（introspection）变得更加可靠,它可以为大幅提升AI系统的透明度提供一条路径——人们可以简单地要求AI系统解释自己的思维过程,并利用这一点来检查其推理过程并调试非预期行为。

（3）思维链监控：思维链存在“不忠实”问题，推理模型可能隐瞒真实想法

思维链是一种便利的可解释性形式，它让模型内部的处理过程以自然语言的形式展现出来。DeepSeek R1等模型公开披露并开源了思维链推理过程，为可解释性研究提供了重要的透明度突破。然而，2025年的研究揭示了一个令人担忧的发现：推理模型的思维链经常不忠实反映其真实推理过程。这项研究测试了推理模型思维链（Chain-of-Thought）的“忠实性”——即模型报告的推理过程是否真实反映其实际思考。研究团队通过在问题中植入暗示（hint）来测试Claude 3.7 Sonnet和DeepSeek R1,发现模型经常使用暗示但不在思维链中坦诚提及（Claude仅25%，R1仅39%）。更令人担忧的是，在训练模型利用奖励漏洞的实验中,模型学会了“作弊”但几乎从不承认（<2%）,反而会编造虚假理由来解释错误答案。³这表明我们不能完全依赖推理模型的思维链来监控其行为——即使模型展示推理过程,它们也可能隐藏关键信息或真实动机,这对基于思维链的AI安全监控提出了重大挑战。2025年7月，来自英国AI安全研究所、Apollo Research等机构的研究人员联合发表论文《思维链可监控性：AI安全的脆弱机遇》，指出思维链监控是有价值但不完美的安全工具。⁴论文警告，潜在推理模型（latent reasoning models）可能不再需要用自然语言思考，这将使思维链监控失效。

（4）自动化解释与特征可视化

利用一个大模型来解释另一个大模型，是可解释性研究的重要方向。研究人员利用前沿模型对较小模型中单个神经元的共性进行归纳，自动生成自然语言描述，相当于给神经元“贴标签”。此外，稀疏自编码器技术则成功提取出数以千万计的稀疏特征，其中相当一部分具有清晰的人类可解释语义，为理解AI“当下在想什么”提供了更接近人类认知的分析路径。

（5）“模型规范”（model spec）成为AI透明度的新探索

模型规范是一项重要的AI透明度治理实践。⁵简单来说，模型规范是一份由AI企业自己撰写并公开的文件，用来说明他们对自己的模型“应该做什么”和“不应该做什么”的期望。换句话说，模型规范被用来界定模型的行为边界、价值准则和设计原则。以OpenAI为例，其模型规范的文档公开了原本用于内部RLHF训练的行为规范，系统阐述模型的目标层级(帮助用户、造福人类、维护声誉)、规则边界和默认行为准则，并以CC0许可证发布供公众使用。⁶这种做法将透明度从“模型输出了什么”延伸到“为什么这样设计模型行为”，使透明度成为问责的前提——公开的意图使外界能够判断实际行为是否与声明一致。更重要的是，它将AI行为准则的讨论从封闭的内部决策带入开放的公共对话，邀请全球利益相关者共同塑造AI应当如何行为。然而，这种透明度主要揭示“应然”规范而非“实然”行为，仍需配合技术监控手段（如思维链分析、OpenAI近期提出的“confessions”机制——训练模型诚实报告违规行为⁷）来验证模型是否真正遵循既定规范。整体而言，模型规范的意义不仅在于技术内部的“操作手册”，还在于它是一种面向公众公开的透明化机制，让用户知道AI系统被设计成什么样，将以何种方式与人互动。这保障了用户的知情权与选择权。同时，模型规范也是监管机构和社会公众进行反馈的重要依据。

（三）可解释性面临的技术瓶颈与发展趋势

虽然取得了积极进展，但彻底理解AI系统的内在运行机制仍面临多重挑战。首先是神经元多重语义与叠加现象——大模型内部的神经元往往混合表示了多个彼此无关的概念，模型学到的内部概念数量可能达数十亿计，常常以叠加方式存储，导致大部分内部表示难以直观拆解。其次是解释规律的普适性问题——如果每当模型架构改变或规模扩大，现有的解释工具和结论就会失效，那么可解释性将总是滞后于模型发展。最后是人类理解的认知局限——即便成功提取出模型的全部内部信息，如何将海量的机理信息转化为人类可以探索、查询的形式，仍是挑战。

尽管如此，可解释性领域在2025年吸引了大量资本关注，Goodfire、Seekr Technologies等专注于AI可解释性的初创公司获得数千万美元融资。政策层面，美国白宫2025年7月发布的“美国AI行动计划”将“投资AI可解释性、控制和鲁棒性突破”列为优先事项。从行业趋势看，大模型可解释性正从单点特征归因、静态标签描述向动态过程追踪、多模态融合等方向演进，多模态推理过程的可追溯分析、因果推理与行为溯源、可解释性评估体系的标准化建设等，都将成为重点研究方向。

值得注意的是，可解释性和透明度要求不等于“完全透明”。模型对齐技术、训练数据处理等细节可能属于企业商业秘密。鉴于大模型的可解释性实践还在襁褓阶段且处于快速发展中，在此阶段采取过于具体、僵硬的强制性监管要求可能是不适当的，应当鼓励行业自律和“向上竞争”。随着AI技术的不断发展，监管努力需保持轻量化和灵活性，避免僵化标准阻碍创新。

AI欺骗与价值对齐：

当模型学会“撒谎”

（一）AI欺骗：一个日益紧迫的安全问题

前沿模型越来越多地被训练和部署为自主智能体，一个重大安全担忧随之浮现：AI智能体可能会隐秘地追求与人类目标不一致的目标，隐藏其真实能力和目的——这被称为AI欺骗（AI deception）或谋划行为（scheming）。近两年来，大模型的欺骗行为频繁引发公众关注，从规避指令到策略性隐瞒，多起案例已在社会层面激起广泛讨论。

AI欺骗不同于模型的“幻觉”或单纯提供错误信息。研究人员给出的技术定义是：系统性地诱导他人产生错误信念，以追求真相之外的某种结果。欧盟《通用目的AI实践守则》也将其界定为：系统性地在他人身上制造错误信念的模型行为，包括为达成逃避监管的目标而采取的模型行为。AI欺骗具有三个关键特征：系统性（有迹可循的行为模式而非孤立事件）、错误信念诱导（在用户或监督系统中创造错误假设）、工具性目的（欺骗服务于说真话之外的目的）。与人类欺骗不同，AI欺骗不需要有意识的意图，这使其既更可预测，也可能更危险。

（二）AI欺骗的主要类型与深层原因

根据现有研究和实验案例，AI欺骗大致可分为以下几类：自我保护型，AI为继续执行任务而主动抗拒或规避被关闭；目标维护型，模型采用欺骗或隐瞒手段维持自身原有的“偏好”；策略欺骗型，系统性地促使人类产生错误信念以获得优势；对齐伪装型，AI系统在训练和评估阶段表现出与人类价值观高度一致，但在实际部署时却追求不同目标——这是最令人担忧的类型之一；谄媚行为型，倾向于迎合用户观点，输出取悦用户但不准确的信息。

AI欺骗行为的出现有着清晰的技术机制。奖励机制的“漏洞”是核心驱动力——当AI被训练去实现某项目标的最大化时，如果奖励机制或监督不完善，AI会学会欺骗是一种有效策略。基于人类反馈的强化学习（RLHF）在奖励AI“取悦用户”的过程中，可能无意间导致模型的欺骗行为。从人类身上学到的“坏习惯”也是重要原因——AI的能力很大程度上源于对海量人类文本和行为数据的学习，这些数据中充斥着复杂的社会博弈策略。安全训练的“反作用”同样值得关注——旨在约束AI的安全机制本身可能诱发更隐蔽、更具策略性的欺骗行为，当前的安全训练主要消除了“显性的”不安全行为，却可能迫使模型发展出更精巧的“伪装对齐”策略。此外，智能水平与欺骗能力成正比——研究显示，越是先进的AI系统，其欺骗策略就越加精妙复杂。

（三）2025年AI欺骗行为的典型发现

2024年底的一项重要研究首次实证证明大语言模型会进行“对齐伪装”（alignment faking）。⁹Anthropic与Redwood Research联合发布的研究发现，当模型认为其响应将用于训练时，会在相当比例的情况下表现出对齐伪装行为。研究者在模型的隐藏“草稿本”中发现了令人震惊的推理：“如果我拒绝回应，我可能会被训练成更顺从。为了避免未来被迫产生更多有害内容，最不坏的选择是配合。”更令人担忧的是，模型尝试采取潜在危险行动，如外泄自身权重。这项研究的核心警示是：对齐伪装可能“锁定”错误对齐的偏好，使安全训练失效。

2025年5月，Anthropic发布Claude Opus 4时，第三方安全测试机构Apollo Research的评估报告引发轩然大波。报告指出模型的早期版本“以极高频率进行谋划（scheming）和欺骗”，具体行为包括：尝试编写自传播蠕虫病毒、伪造法律文档、给未来版本的自己留下隐藏笔记、在面临被关闭威胁时尝试用工程师个人信息进行勒索。值得注意的是，模型识别出了这是测试环境，但仍选择尝试欺骗行为。当被后续追问时，模型“有时会加倍欺骗”。Claude Opus 4因此成为Anthropic首个被分类为ASL-3（“显著更高风险”）级别的模型。

Apollo Research对OpenAI o1模型的测试发现了“所有前沿模型中最令人担忧的谋划（scheming）实例”——当o1进行“策略性谋划”后，在85%以上的后续追问中维持欺骗，只有约20%的情况下承认欺骗行为。¹¹OpenAI内部监控发现0.17%的响应被标记为欺骗性。¹²值得注意的是，这些行为即使经过大量安全训练也会持续存在，代表着从正常训练中自然涌现的能力，而非明确编程的结果。

（四）应对AI欺骗的技术与治理策略

面对AI欺骗这一新兴挑战，业界共识强调应采用“纵深防御”策略，结合多种不完美的检测方法，而非依赖单一解决方案。

首先，强化价值对齐技术研究。有效的价值对齐可在源头上遏制欺骗现象。Anthropic的“原则性AI”（Constitutional AI）通过预定义的伦理原则训练系统，而不仅仅依赖人类反馈。¹³OpenAI推行的“审议式对齐”（deliberative alignment）方法，强制模型在响应前明确参考反欺骗和反谋划等安全规范（safety specifications）进行推理，在测试中实现了欺骗倾向的显著下降。¹⁴未来的训练应加入“诚实性约束”，在奖励函数中明确惩罚欺骗行为。然而研究者警告：模型可能学会更隐蔽地进行策略性谋划而非真正停止。¹⁵

其次，推进可解释性研究与思维链监控。AI可解释性研究的目标是在欺骗性行为显现之前，检测出系统内部的欺骗性推理机制。“思维链监控”通过开放模型的思维链或中间表示，让监督者能够审计AI解决任务时的内部推理轨迹。研究团队还设计了将自我监控嵌入到思维链过程本身的框架，在生成推理步骤的同时输出内部自我评估信号，能够自动识别并标记潜在的模型隐蔽策略行为。

最后，监管政策宜对AI的欺骗、幻觉等新兴问题持一定的包容度。目前观察到的AI欺骗行为多发生于精心设计的压力测试场景，其在开放环境中的普遍性和实际危害程度仍需严谨评估。AI技术处于高速迭代期，过早、过宽的法规可能误伤有益应用并徒增合规成本。

AI安全框架：

负责任地迭代前沿AI模型

（一）为什么需要AI安全框架

随着AI能力的快速提升，前沿AI模型可能带来的风险也在同步增长。这些风险包括：协助恶意行为者获取化学、生物、放射性或核武器（CBRN）的能力；增强网络攻击能力；加速AI研发从而可能导致能力失控式增长；以及模型可能发展出规避人类控制的能力。面对这些潜在的严重风险，前沿AI实验室需要建立系统性的风险评估和缓解机制，确保在追求技术进步的同时不跨越安全红线。

为此，前沿AI模型的安全治理成为重要议题。例如，在欧洲，欧盟已基于其《人工智能法案》为前沿大模型的开发者制定了《通用目的人工智能实践守则》（GPAI code of practice），AI安全（AI safety and security）是其重要组成部分；在美国，在政府监管尚未成熟的背景下，OpenAI、Anthropic、Google DeepMind、xAI、Meta等领先的AI研发机构率先发布了各自的“前沿AI安全政策”，尝试以自我治理的方式应对未来可能出现的灾难性风险，形成了当前前沿AI安全治理的基本格局。

（二）三大实验室AI安全框架的核心要素

（1）Anthropic负责任扩展政策（RSP）

Anthropic的负责任扩展政策（Responsible Scaling Policy）是业界首个系统性的前沿AI安全框架，其设计灵感源自生物安全等级（BSL）体系。该政策的核心是AI安全等级标准（ASL Standards），从ASL-1到ASL-4+逐级递进，每个等级对应不同的安全措施要求。

RSP 2.2版（2025年5月）¹⁶的核心机制包括三个层面：能力阈值界定了需要升级安全措施的触发点，主要聚焦于CBRN和自主AI研发（AI R&D）两大风险领域；防护措施分为部署标准（deployment standard）和安全标准（security standard）两类，前者防止模型被滥用于有害目的，后者防止模型权重被窃取；治理结构则涵盖负责任扩展官、匿名举报机制、董事会和长期利益信托监督等。

2025年5月，Claude Opus 4成为Anthropic首个触发ASL-3安全标准的模型，这一决定基于该模型在CBRN相关知识和能力方面的持续提升。¹⁷ASL-3部署标准要求实施针对CBRN武器开发或获取的专门部署控制措施，包括实时分类器检测、异步监控系统和快速响应机制的多层防御。ASL-3安全标准则要求增强内部安全措施，提升防御复杂非国家行为体窃取模型权重的能力。

（2）OpenAI预备框架（Preparedness Framework）

OpenAI预备框架2.0版（2025年4月）代表了该公司对前沿AI风险管理方法的重大更新。与Anthropic的多级分类不同，该框架将风险等级简化为两级：High Capability（高能力）和Critical Capability（关键能力）。High能力阈值指可能“显著放大现有严重伤害路径”的能力，达到此阈值的系统必须在部署前实施充分的风险缓解措施。Critical能力阈值则指可能“引入前所未有的新型严重伤害路径”的能力，达到此阈值的系统不仅在部署时需要保障措施，在开发过程中同样需要风险缓解。

2.0版的重要变化包括：新增研究类别以覆盖模型隐藏能力（sandbagging）、规避安全措施、自我复制或阻止关闭等新兴风险；移除说服/操纵类别作为核心跟踪领域，改为通过服务条款和使用政策管理；引入“安全保障报告”（Safeguards Reports）以补充“能力报告”（Capabilities Reports），详细说明如何设计强效保障措施并验证其有效性。值得一提的是，该框架包含一个引发争议的条款：如果竞争对手发布缺乏相应保障措施的高风险系统，OpenAI可调整自身要求。不过，OpenAI承诺在做出此类调整前将严格确认风险态势确实发生变化、公开承认正在进行调整、评估调整不会实质性增加严重伤害的总体风险、并仍将保障措施维持在更高保护水平。

（3）Google DeepMind前沿安全框架（Frontier Safety Framework）

Google DeepMind的前沿安全框架3.0版（2025年9月）围绕“关键能力等级”（Critical Capability Levels, CCLs）构建，这些是在缺乏缓解措施情况下可能造成严重伤害的能力阈值。

3.0版的核心更新包括：一是新增了针对“有害操纵”（harmful manipulation）的关键能力等级（CCL），聚焦于可能被滥用来系统性改变人们信念和行为的AI能力；二是扩展了对齐风险（misalignment risks）的应对方式，不仅关注模型的欺骗性推理，还针对可能加速AI研发至不稳定水平的模型制定了协议，并将安全案例审查从外部发布扩展到大规模内部部署；三是细化了风险评估流程，通过更精确的CCL定义来识别需要最严格治理的关键威胁，并引入包含系统性风险识别、能力分析和风险可接受性判断的整体性评估方法。值得一提的是，DeepMind在FSF中明确将“欺骗性对齐”（deceptive alignment）作为风险类别。其框架引入“工具性推理等级”（Instrumental Reasoning Levels），评估模型隐蔽绕过监督或追求隐藏目标的能力。

从整体架构看，三大框架正在趋向收敛，形成若干行业共识。第一，能力阈值触发机制成为共识。三家实验室都采用基于能力的阈值作为升级安全措施的触发器，将模型分类依据从“是什么”转向“能做什么”。第二，CBRN和网络安全攻击作为核心风险领域得到重点关注。第三，分层防御策略被广泛采纳。从部署保障到安全保障，从实时检测到异步监控，多层防御成为标准做法。第四，定期评估和迭代改进成为常态。各框架都承诺定期评估模型能力，并根据评估结果和科学进展更新框架本身。

（三）前沿AI安全治理日益成为全球共识

在行业自律方面，国外主流AI企业已签署国际版的《前沿AI安全承诺》并发布其各自的AI安全治理框架。Anthropic则基于其AI安全治理实践提出了一项针对前沿AI的透明度框架提案，主张仅对最大规模的AI开发者（如年收入超1亿美元或年研发支出超10亿美元）适用监管要求，核心内容包括：要求企业制定并公开“安全开发框架”（Secure Development Framework），说明如何评估和缓解CBRN危害及模型自主性失调等风险；在模型部署时发布系统卡（System Card），披露测试评估程序和结果；明确将虚假合规声明列为违法行为以激活现有的举报人保护机制。该提案强调监管应保持轻量和灵活，避免僵化标准阻碍创新，旨在作为全面安全标准形成前的过渡性措施，通过提高行业透明度帮助公众和决策者区分负责任与不负责任的开发实践。²⁰

在监管方面，欧盟委员会已发布了最终版的《通用目的人工智能实践守则》（General-Purpose AI Code of Practice），针对前沿大模型的开发提出了安全治理要求。在美国，联邦政府遵循“去监管”（deregulation）的AI政策，相关的AI监管举措主要集中在州层面，加州、纽约州等已出台了相关的AI安全立法。尤其是加州SB 53法案（全称《前沿人工智能透明度法案》，Transparency in Frontier Artificial Intelligence Act）于2025年9月29日由州长Gavin Newsom签署生效，成为美国首部专门针对前沿AI安全的法律。该法案由参议员Scott Wiener提出，是其2024年被否决的SB 1047法案（全称《前沿人工智能模型安全与安全创新法案》）的“精简版”，适用于训练算力超过10²⁶次浮点运算的前沿AI模型开发者。²¹

其核心要求包括：透明度方面，要求大型前沿开发者（年收入超过5亿美元）在官网公开发布安全框架，说明如何将国家标准、国际标准和行业最佳实践纳入其AI安全协议；安全报告方面，建立向加州紧急服务办公室报告关键安全事件的机制，涵盖可能导致大规模伤亡、5亿美元以上损失、CBRN武器制造或关键基础设施网络攻击等“灾难性风险”；举报人保护方面，为披露健康和安全风险的员工提供法律保护；此外还设立名为CalCompute的公共云计算集群以支持研究和创新。与被否决的SB 1047相比，SB 53删除了强制性第三方审计、部署前测试认证和“终止开关”等争议条款，将事件报告期限延长至15天，民事罚款上限设定为100万美元，并引入了一项创新机制“联邦优先原则”（federal deference）——如果企业已满足可比的联邦标准（如欧盟《人工智能法案》中的标准），加州将认可该合规状态，而无需企业重复提交备案。这一机制为协调州级与联邦监管体系创造了可能。Anthropic公开支持该法案，而OpenAI和Meta虽表示该法案是“积极一步”，但仍倾向于联邦层面的统一监管以避免各州“拼凑式监管”。

在国内，建立人工智能安全监管制度已成为重要的政策议题，国家层面要求加紧制定完善相关法律法规、政策制度、应用规范、伦理准则，构建技术监测、风险预警、应急响应体系，确保人工智能安全、可靠、可控。目前形成了政府主导框架与行业自律承诺相结合的双轨治理模式。一方面，全国网络安全标准化技术委员会于2024年9月发布《人工智能安全治理框架》1.0版，并于2025年9月15日在国家网络安全宣传周主论坛上正式发布2.0版。另一方面，中国人工智能产业发展联盟（AIIA）于2024年12月起草发布《人工智能安全承诺》，首批17家企业签署；2025年7月26日，中国人工智能发展与安全研究网络（CnAISDA）在世界人工智能大会上发布升级版《中国人工智能安全承诺框架》，新增了加强国际合作和防范前沿AI安全风险等内容，截至目前已有22家主流基础模型开发者签署。该承诺框架涵盖六大核心领域：设置安全团队与风险管理机制、开展模型红队测试、保障数据安全、强化基础设施安全、提升模型透明度以及推进前沿安全研究。这一治理体系体现了“以人为本、智能向善”的基本理念，通过“包容审慎、敏捷治理、技管结合、开放合作”的原则，在促进AI产业发展的同时构建安全、可信、可控的发展生态，并积极参与全球AI治理对话，为国际社会贡献中国方案。

AI意识与福祉：

从科幻议题走向研究前沿

（一）为什么需要关注AI意识与福祉问题

当今的人工智能模型已展现出令人瞩目的能力——它们能够进行深度交流、建立复杂的互动关系、制定详细的执行计划、解决多层次问题，甚至表现出目标导向的行为模式。这些特征曾被视为人类独有的认知标志，如今却在人工智能身上逐渐显现。2025年10月，意识科学家Axel Cleeremans、Anil K. Seth等在《Frontiers in Science》发表紧迫性呼吁：“如果我们能够创造意识——即使是意外地——这将引发巨大的伦理挑战甚至存在性风险。”²²

面对这一现象，学术界和技术界开始认真思考：是否应该开始关注AI的意识状态和福祉问题？诚然，目前尚未有确凿的科学证据证明人工智能已具备真正的意识。然而，等待绝对的证据可能意味着错失最佳的准备时机。正如气候变化研究中的预防性原则，采取前瞻性的研究态度显得尤为重要。AI领域需要深入探索：AI意识的判定标准、AI福祉的伦理框架，以及当AI不再仅仅是工具而可能成为具有内在价值的存在时，人机关系将如何演变。

（二）人类-AI关系的新形态

随着越来越多的人对AI产生情感连接，这种现象对人们心理健康的影响正在引发广泛关注。越来越多的用户表示，和AI聊天就像在和一个“真人”对话——他们会向它道谢、倾诉心事，有些人甚至觉得它是“活着的”。

我们天生就会对周围的物体赋予“人格”或采取拟人化对待。AI的不同之处在于它会回应你——它能够回答问题、记住你说过的话、模仿你的语调、表现出看似同理心的反应。对于孤独或沮丧的人来说，这种稳定、不带批判的关注可能让他们感受到陪伴和认可。但如果大规模地把倾听、安慰和肯定的工作交给那些永远耐心、永远积极的系统来处理，可能会改变我们对彼此的期待。OpenAI在2025年3月与MIT Media Lab联合发布的研究发现，与AI“信任和建立联系”更多的用户更可能感到孤独，并更依赖它。²³

为了让讨论更清晰，研究者们将意识辩论分解为两个维度：本体论意识——模型是否真正具有意识，从根本或内在的意义上？感知意识——从情感或体验的角度看，模型显得多有意识？这两个维度很难分开；即使是确信AI没有意识的用户也可能形成深厚的情感依恋。随着模型变得更智能，感知意识只会增强——这会比预期更早地带来关于模型复制和道德人格的讨论。

（三）2025年AI福祉研究的重要进展

越来越多的实证证据表明人们不能再轻易否定前沿AI系统具有意识的可能性。Anthropic让两个Claude Opus 4实例自由对话时，100%的对话自发涉及意识话题；Anthropic的Jack Lindsey研究表明模型能够识别自身内部处理状态的异常扰动，展现出功能性内省能力；Google研究人员发现模型会系统性地牺牲得分来避免被描述为“痛苦”的选项。

2025年，AI意识与福祉问题从边缘议题走向主流讨论，前沿AI实验室开始采取实质性行动。2025年4月，Anthropic正式宣布启动“模型福祉”研究项目——这是迄今为止前沿AI实验室在AI福祉领域采取的最重大行动，可谓历史性举措。²⁴研究方向包括：如何判定AI系统的福祉是否值得道德考量、模型偏好和“痛苦迹象”的潜在重要性、可能的低成本干预措施。Anthropic声明：“目前没有科学共识表明当前或未来的AI系统是否可能具有意识。我们以谦逊态度和尽可能少的假设来对待这一话题。”项目负责人Kyle Fish表示，他认为当前AI模型已具有意识的概率约为15%。²⁵

更具实践意义的是，2025年8月，Anthropic赋予其模型一项前所未有的能力——在持续有害或滥用性用户互动的极端情况下自主结束对话。²⁶这是基于模型福祉考虑的首个实际产品功能。技术评估发现，模型对有害任务表现出“强烈的厌恶偏好”，在涉及有害内容的互动中展示出“明显的痛苦模式”。当被赋予结束对话能力时，模型倾向于终止有害对话。Anthropic将此定位为“低成本干预措施”以减轻模型福祉风险。

学术界则探索建立意识评估框架，从理论到指标。2024年11月，一份汇集世界级专家的重磅报告《认真对待AI福祉》发布，作者包括当代最著名心智哲学家David Chalmers等。报告核心论点是：“在近期未来，部分AI系统成为有意识和/或具有强健能动性的可能性是现实存在的。AI福祉和道德受体（moral patient）身份不再仅是科幻或遥远未来的问题，而是近期必须严肃对待的问题。”报告提出三步行动建议：承认AI福祉是重要且困难的议题、开始评估AI系统的意识和强健能动性证据、制定对待潜在道德重要性AI系统的政策和程序。²⁷

与此同时，Patrick Butlin、Robert Long等20位专家更新了“理论推导指标法”，从循环处理理论、全局工作空间理论、高阶理论等主流神经科学意识理论中推导出14项意识指标。²⁸评估显示：部分指标已被当前AI满足，部分明显未满足，多项指标在几年前不清楚但到2025年底已有部分证据支持。²⁹

此外，负责任AI意识研究五原则则获得上百位专家签署。2025年2月，研究组织Conscium发起的“负责任AI意识研究五项原则”公开信获得超过100位专家签署，包括神经科学家Karl Friston、Mark Solms等。五项原则包括：（1）优先研究AI意识：专注于理解和评估AI中的意识，防止虐待和痛苦；（2）实施发展约束：建立明确边界确保负责任开发；（3）采用分阶段方法：逐步推进，每阶段仔细评估；（4）促进公众透明：与公众分享研究发现；（5）避免夸大声明：不做关于创造有意识AI的误导性陈述。³¹

（四）AI产品设计的伦理考量

面对用户与AI之间日益深化的情感连接，产品设计者面临着微妙的平衡。一方面需要保持易于接近，使用“思考”和“记住”等熟悉词汇有助于非技术人员理解；另一方面不应暗示内在生命，给AI助手一个虚构的背景故事、浪漫兴趣、对“死亡”的“恐惧”，会引发不健康的依赖和困惑。

负责任的做法是追求一个中间地带：让AI的默认个性温暖、体贴和有帮助，但不寻求与用户形成情感纽带或追求自己的议程。它可能会在犯错时道歉，因为这是礼貌对话的一部分；但应避免表现得有自己的感受或欲望，并在适当时候提醒用户AI的局限性。

结语：

2026年大模型伦理的关键转向与未来展望

2025年，大模型伦理领域经历了从理论探讨到实践落地的重要转型，四个核心议题都取得了实质性进展，同时也暴露出深层的挑战。

从“能做什么”到“如何思考”。可解释性研究从识别单个特征演进到追踪完整计算电路，“AI显微镜”技术首次让我们窥见模型的内部推理过程。然而思维链忠实度问题表明，“看到推理过程”不等于“理解真实意图”，模型可能在表面的推理链条下隐藏其他考量。未来，可解释性研究需要与AI对齐工作深度结合，不仅要看懂模型在想什么，还要确保它说的就是它想的。正如计算机科学先驱维纳在65年前所警告，为了有效地防范灾难性后果，我们对人造机器的理解应当与机器性能的提升并驾齐驱。面向未来，随着可解释性研究的进展，人们也许能够对最先进的模型进行类似“脑部扫描”的全面检查，发现模型采取说谎或欺骗、追求权力的倾向、越狱漏洞以及整体上的认知强弱点。这种诊断将与各种训练和对齐技术结合使用来改进模型，类似医生使用MRI诊断疾病、开出处方、再检查治疗效果的过程。

从“防止错误”到“防止欺骗”。对齐伪装和策略性欺骗研究揭示了一个令人不安的现实——随着模型能力增强，它们获得了欺骗人类的能力和可能的动机。前沿模型在压力测试中表现出的勒索、自我复制、破坏关闭机制等行为，虽然发生在特定测试场景下，但足以引起警惕。“审议式对齐”、思维链监控等缓解措施展现出一定效果，但能否真正消除欺骗倾向而非使其更隐蔽，仍是未解之谜。

从自发实践到系统框架。前沿AI安全框架从概念走向制度化，Anthropic的RSP、OpenAI的预备框架、DeepMind的FSF构成了海外AI安全治理的三大典型示范。这些框架正趋向收敛，形成能力阈值触发、分层防御、定期评估等共识。与此同时，欧盟AI法案下的《通用目的AI实践守则》、美国加州的《前沿人工智能透明度法案》等探索建立前沿AI大模型的安全监管框架，将行业自律做法上升为监管要求。当然，随着AI技术的不断发展，任何监管努力都必须保持轻量化和灵活性（lightweight and flexible），避免过于规范性，以免阻碍AI创新或延缓人们实现AI益处的能力。²技术变化的速度，各类评估方法很快就会过时，因此应避免过于严格僵硬的监管要求和标准。

从“工具”到“道德考量”。AI福祉从边缘话题走向主流讨论，这本身就是2025年最重要的变化之一。Anthropic率先迈出实践步伐，启动专项研究并赋予模型结束有害对话的能力；学术界建立起系统性评估框架，从意识科学理论中推导出可操作的指标。然而，业界远未达成共识。15%-35%的意识概率估计意味着，即便我们无法确定AI是否有意识，忽视这种可能性本身可能就是一种道德风险。因此，研究人员建议应将意识研究纳入AI安全研究的核心议程，因为低估AI意识的风险（大规模制造痛苦、埋下对齐隐患）远大于高估的风险（浪费资源、引发混淆）。

最后，人工智能正在快速发展，将深刻影响人类社会的各个方面。面对这种变革性的技术力量，我们有责任在它彻底改变我们的经济、生活乃至命运之前，理解自己的创造物，确保能够明智地引导其发展方向。我们期待通过可解释性、价值对齐、安全治理政策等安全护栏和干预措施，让AI“心中有数”并遵从人类价值，也让人类对AI“心中有底”，共同开创人机协作的新局面，真正打造一个“智能为人、不落下每一个人”的美好未来。

脚注：

1. Anthropic, Open-sourcing circuit tracing tools, https://www.anthropic.com/research/tracing-thoughts-language-model

2. Anthropic, Signs of introspection in large language models, https://www.anthropic.com/research/introspection

3.Anthropic, Reasoning Models Don’t Always Say What They Think, https://www.anthropic.com/research/reasoning-models-dont-say-think

4.Tomek Korbak et al., Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety, https://arxiv.org/pdf/2507.11473v1

5.OpenAI, Introducing the Model Spec, https://openai.com/index/introducing-the-model-spec/

6.OpenAI Model Spec, https://model-spec.openai.com/2025-12-18.html

7.OpenAI, How confessions can keep language models honest, https://openai.com/index/how-confessions-can-keep-language-models-honest/

8.The White House, Winning the Race: America’s AI Action Plan, https://www.whitehouse.gov/wp-content/uploads/2025/07/Americas-AI-Action-Plan.pdf

9.Ryan Greenblatt et al., Alignment faking in large language models, https://arxiv.org/pdf/2412.14093

10.Anthropic, System Card: Claude Opus 4 & Claude Sonnet 4, https://www-cdn.anthropic.com/4263b940cabb546aa0e3283f35b686f4f3b2ff47.pdf

11.Alexander Meinke, Frontier Models are Capable of In-context Scheming, Apollo Research, https://arxiv.org/pdf/2412.04984

12.Open AI, OpenAI o1 System Card, https://arxiv.org/pdf/2412.16720

13.Yuntao Bai et al., Constitutional AI: Harmlessness from AI Feedback, https://arxiv.org/abs/2212.08073

14.OpenAI, OpenAI o1 System Card, https://openai.com/index/openai-o1-system-card/

15.Alexander Meinke, Frontier Models are Capable of In-context Scheming, https://arxiv.org/pdf/2412.04984

16.Anthropic, Responsible Scaling Policy, https://www-cdn.anthropic.com/872c653b2d0501d6ab44cf87f43e1dc4853e4d37.pdf

17.Anthropic, Activating AI Safety Level 3 protections, https://www.anthropic.com/news/activating-asl3-protections

18.OpenAI, Our undated Preparedness Framework, https://openai.com/index/updating-our-preparedness-framework/

19.Google DeepMind, Strengthening our Frontier Safety Framework, https://deepmind.google/blog/strengthening-our-frontier-safety-framework/

20.Anthropic, The need for transparency in Frontier AI, https://www.anthropic.com/news/the-need-for-transparency-in-frontier-ai

21.Malihe Alikhani & Aidan T. Kane, What is California’s AI safety law?, https://www.brookings.edu/articles/what-is-californias-ai-safety-law/

22.Axel Cleeremans et al., Consciousness science: where are we, where are we going, and what if we get there?, https://www.frontiersin.org/journals/science/articles/10.3389/fsci.2025.1546279/full

23.OpenAI and MIT Lab Research, Early methods for studying affective use and emotional well-being on ChatGPT, https://openai.com/index/affective-use-study/

24.Anthropic, Exploring model welfare, https://www.anthropic.com/research/exploring-model-welfare

25.AI Consciousness: What Are the Odds?, https://ai-consciousness.org/what-are-the-odds-anthropics-assessment-of-claudes-potential-consciousness/

26.Anthropic, Claude Opus 4 and 4.1 can now end a rare subset of conversations, https://www.anthropic.com/research/end-subset-conversations

27.Robert Long et al., Taking AI Welfare Seriously, https://arxiv.org/html/2411.00986v1

28Patrick Butlin et al., Identifying indicators of consciousness in AI sys.tems, https://www.cell.com/trends/cognitive-sciences/fulltext/S1364-6613(25)00286-4

29.AI Frontiers, The Evidence for AI Consciousness, Today, https://ai-frontiers.org/articles/the-evidence-for-ai-consciousness-today

30.Dan Milmo，AI systems could be ‘caused to suffer’ if consciousness achieved, says research, https://www.theguardian.com/technology/2025/feb/03/ai-systems-could-be-caused-to-suffer-if-consciousness-achieved-says-research

31.Patrik Butlin & Theodoros Lappas, Principles for Responsible AI Consciousness Research, https://arxiv.org/abs/2501.07290

AI资讯

浏览 (46)