超级AI接管世界需要几步?

功能与超级力量

人工智能接管的情境
掌控自然与行动主体
智能与动机之间的关联

设计上的可预测性。如果超智能行动主体的设计者可以成功安排行动主体的目标系统,让系统稳定追求设计者安置的某一特定目标,那么我们可以做出一个预测:这个行动主体将会追求这个目标。当它愈聪明,它用来追求目标的认知智能就会愈强。因此,只要我们知道这个行动主体是谁打造出来的,且知道他们安置了什么目标,那么即使这个行动主体还没被设计出来,我们也能预测它的行为。 继承而来的可预测性。如果某数字智能是直接从人类模板制造出来的(高度全脑仿真会发生的情况),那么这个数字智能就继承了人类模板的动机。即便这个行动主体的认知能力随后增强为超智能,它还是会维持这些动机。这种推论必须小心谨慎:行动主体的目标和价值可以轻易在上传过程或其后的运作与增强中腐化,取决于步骤如何施行。 趋同工具理性上的可预测性。关于行动主体的终极目标,就算没有详细的知识,只要思考众多状况中,为了众多可能终极目标之一而产生的工具理性,我们还是有机会约略推测它的近期目标。当行动主体的智能愈强大,这种预测方式就愈有用,因为一个比较聪明的行动主体较可能察觉行动中真正的工具理性,并因此做出较有可能达到目标的行动(附带一提,可能会有我们不知道、但相当重要的工具理性,一旦行动主体的智能达到某个非常高的水准,它就会发现——这可能会使超智能行动主体的行为变得更难预测)。
工具趋同性
目标-内容一致性
社会信号。当其他人可以感知某个行动主体的目标,并利用这项信息来推断行动主体的特质或是其他相关属性时,那么该行动主体就会调整目标,产生讨人喜欢的印象,以符合利益。举例来说,在一场利益交换中,如果行动主体的伙伴不相信它能履行协议内容,这个行动主体可能就会错失获利机会。为了许下可靠的承诺,行动主体会希望把“信守先前的承诺”当作终极目标,并让其他人认定它确实会采用这个目标。能灵活调整自身目标的行动主体,可运用这个能力来强化交易。 社群偏好。其他人也可能对行动主体的目标具有最终偏好。那么行动主体可能会调整目标,来满足或者阻挠那些偏好。 关于自身目标内容的偏好。行动主体可能会有一些和自身目标内容相关的终极目标。举例来说,可能会有“成为被特定价值而非其他价值推动(例如由同理心而非安适感所推动)的行动主体”的终极目标。 保存成本。如果保存或处理一个行动主体某部分性能函数的成本,与应用那性能函数产生改变的机会相比显得太大,那么这个行动主体就有工具理性来简化目标内容,且有可能会舍弃掉闲置的比特空间。
认知强化
资源截取
