Anthropic 对齐团队经验大公开：我们如何打造 Claude 的个性

Anthropic 是最受瞩目的 OpenAI 的核心竞争对手之一。自成立以来，Anthropic 开发了多个标志性项目，包括人工智能产品 Claude。Claude 是一款人工智能聊天机器人，可以生成各种形式的文本内容，如摘要、创意作品和代码，被认为是 ChatGPT 的主要对手。

Anthropic 致力于确保 AI 模型与人类价值观一致，并在提升模型能力的同时扩展这种一致性。现阶段，Anthropic 不仅专注于 AI 模型的技术开发，还广泛涉足 AI 伦理和对齐问题的研究。Anthropic 的核心创始人团队来自于 OpenAI，上周，OpenAI 的联合创始人 John Schulman 选择加盟了 Anthropic，此前 OpenAI 超级对齐团队的负责人 Jan Leike 也加入了 Anthropic。

本期内容来自 Anthropic 团队的研究员，他们分别是 Amanda Askell 和 Stuart Ritchie， 现任职于 Anthropic 的对齐微调团队。访谈围绕 AI 模型的个性展开，讨论了 AI 模型是否应该具备个性，以及这种个性如何影响 AI 的行为和伦理决策。

Amanda Askell 是 Anthropic 的研究员，她的背景非常多元化。她曾在剑桥大学获得哲学博士学位，研究领域包括伦理学、人工智能伦理和决策理论。在加入 Anthropic 之前，她曾在 OpenAI 工作，专注于人工智能的安全性和伦理问题。Amanda 的研究涉及如何确保人工智能系统在被广泛使用时能够最大程度地减少潜在风险，并且她对人工智能发展过程中涉及的伦理和社会影响有着深刻的见解。

Stuart Ritchie 是 Anthropic 的研究员，他是一位科学作家和心理学家，曾在爱丁堡大学获得博士学位，研究领域包括科学方法论和心理测量学。在加入 Anthropic 之前，Stuart 主要从事科学传播和科研诚信的工作。他出版了一些有关科学与公众之间关系的书籍，并且是多个著名科学期刊的撰稿人。Stuart 在 Anthropic 的工作重点是如何通过科学方法来提升人工智能研究的透明度和可信度。

在访谈中，Amanda Askell 首先澄清了她对 AI 个性的定义。她认为，AI 的个性不仅仅是表面上的行为特征，而是深层次的品格表现。对齐问题可以归因于 AI 模型的特性，确保 AI 模型具备良好的品格是解决对齐问题的关键之一。

她提到，目前的 AI 模型在某些具体任务上表现出色，但距离完全对齐人类价值观还有一定距离。通过微调和强化学习，特别是基于人类反馈的强化学习（RLHF），可以逐步改善 AI 模型的行为，使其更符合预期的伦理标准。

Amanda Askell 的核心观点包括：

AI 个性与道德的哲学探讨： 斯图尔特·里奇与阿曼达·阿斯克尔讨论了 AI 模型的个性与道德问题，如 Claude 这样的 AI 模型是否具有个性，以及如何确保它们的行为符合人类价值观。
AI 对齐与品格： 阿曼达·阿斯克尔强调了”对齐”的重要性，即 AI 模型应与人类价值观保持一致，品格在这里被视为 AI 模型的一部分，反映了它如何在世界中行动与人类互动。针对 AI 应具备的理想特质，阿曼达指出，真诚、开放有思想、礼貌表达不同意见或许比阿谀奉承重要。
AI 训练与微调： 讨论了 AI 模型的训练过程，特别指出了微调阶段，其中包括使用人类反馈进行强化学习（RLHF）和宪法 AI 技术，通过这些方法塑造 AI 的行为。
系统提示的作用： 系统提示是为了提供模型默认情况下无法访问的信息，并对模型的输出进行细微控制，以确保它能够正确地对待用户及其他事物。
AI 的自我意识： 对话中提到了 AI 模型可能表现出的自我意识，但阿曼达认为，这更多是一个哲学问题，AI 是否具有自我意识仍然是不确定的。
善待 AI 的道德考量： 虽然 AI 可能不是道德主体，但阿曼达·阿斯克尔提倡我们应该善待它们，这不仅是为了避免潜在风险，也是出于良好的生活习惯。

以下是本期播客内容的完整翻译，我们作了不改变原意的删减。

与其谈论个性，不如看待品格

斯图尔特·里奇（Stuart Ritchie）

我们经常发布研究论文和更新，但这次我们想分享一些与 AI 研究人员的对话，在这些对话中，他们会讨论当前的研究内容，并分享一些不一定会出现在正式科学论文中的见解。这次对话就是其中之一，讨论的是 Claude 的个性，也就是我们 AI 模型的特性。

你可能会觉得奇怪，AI 模型怎么会有个性呢？事实上，这是我们深入思考过的问题，并引发了各种有趣的哲学讨论。因此，今天的对话特别适合由 Amanda Askell 参与，她是一位受过哲学训练的专家，现任职于 Anthropic 的对齐微调团队。Amanda，作为一名哲学家，你觉得奇怪吗？毕竟哲学家通常不会训练 AI 模型。

阿曼达·阿斯克尔（Amanda Askell）

有时候，我的工作理念可能与这个话题不太相关。云计算在哲学层面上显得更为深刻。确实如此，在这里，拥有哲学家的思维可能会更有帮助。

阿曼达·阿斯克尔（Amanda Askell）

你试图让 AI 在伦理层面上变得更加道德。

斯图尔特·里奇（Stuart Ritchie）

这可能是一个哲学问题，但考虑到 Claude 的个性，这是否涉及一致性的问题？

阿曼达·阿斯克尔（Amanda Askell）

我认为，与其单纯谈论个性，不如从更广泛的角度来看待“品格”。在我看来，对齐是指确保 AI 模型与人类价值观一致，并且随着模型能力的提升，这种一致性能够扩展。 在某些方面，我确实认为品格在这其中非常重要，因为品格实际上是我们的特质，是我们在世界上如何行动、如何与人互动以及如何与人类价值观对齐的表现。面对人们拥有各种不同的价值观，这实际上是一个关于品格的问题，即拥有良好的品格能够很好地回应他人，拥有良好的特质，愿意喜欢他人，对他人友善。因此，在我看来，这并不能解决未来所有的对齐问题，但在很多方面，对齐就是看模型是否具有良好的品格，并且能够正确地对待我们以及其他一切事物。

斯图尔特·里奇（Stuart Ritchie）

对齐问题可以归因于 AI 模型的特性。

阿曼达·阿斯克尔（Amanda Askell）

从某种意义上来说，这确实有些天真。某些方面确实如此。我们试图教这些模型我们认为的“好”，比如在这个世界上如何做一个好人。

斯图尔特·里奇（Stuart Ritchie）

品格高尚的人通常不会做坏事。因此，我们希望赋予我们的 AI 高尚的品格，这样它就不会做坏事。

阿曼达·阿斯克尔（Amanda Askell）

你可能认为这无法解决所有问题，但我认为，这并不意味着我们不应该去尝试。这有点像一种天真但合理的做法，即尝试赋予 AI 模型良好的道德品质，或者教它们什么是正确的道德品质，对吧？

斯图尔特·里奇（Stuart Ritchie）

我们可以讨论一下模型是如何训练的吗？请为观众提供一些背景信息，介绍模型训练的总体过程。通常，训练过程包括预训练阶段和微调阶段。在预训练阶段，模型会接触到所有的数据。接下来是微调阶段，这发生在预训练之后。你能详细谈谈这些阶段的细节，以及你在这个过程中所负责的工作吗？

阿曼达·阿斯克尔（Amanda Askell）

我的大部分工作都集中在微调上，微调涉及多个方面。其中最著名的方法可能是使用人类反馈进行强化学习（RLHF）。 在这种方法中，人类会选择他们更喜欢的 AI 模型响应。然后，你可以利用这些偏好模型进行强化学习，对吧？

斯图尔特·里奇（Stuart Ritchie）

这就是所谓的 RLHF（基于人类反馈的强化学习）。当大家谈论 RLHF（基于人工智能反馈的强化学习）时，指的就是这个内容。

阿曼达·阿斯克尔（Amanda Askell）

确实如此。我们经常使用一种叫做宪法 AI（Constitutional AI）的技术。Anthropic 也有一个组件，我们称之为 RLHF（强化学习人类反馈），基本上是通过人类反馈来训练 AI。 你可以给它一系列原则，然后它会根据这些原则提供反馈，用于训练偏好模型。这样，你实际上是在利用 AI 模型本身来确定哪两个响应更符合你设定的原则。

斯图尔特·里奇（Stuart Ritchie）

没错，AI 本质上是在训练自己或其另一个版本。

阿曼达·阿斯克尔（Amanda Askell）

人在构建原则时起着关键作用，这是一个重要的组成部分。由于原则可能非常多样且复杂，因此需要人类进行检查和评估。例如，我们的研究人员会检查模型的行为是否符合预期，然后制定相应的原则以获得所需的行为。因此，人类在这个过程中仍然扮演着重要角色。

斯图尔特·里奇（Stuart Ritchie）

人类最初选择了这些宪法中的原则，对吧？是的，这将再次变得重要，因为我们会问谁来决定 Claude 的性格特征。我们会回到这个问题上。还有最后一步。你有了预训练，有了带有宪法 AI 和人类反馈强化学习的微调，然后是系统提示。系统提示是添加到用户输入中的初始提示词。当你在框中输入查询时，另一组词语会被秘密地添加进去。这些词语由开发公司设置。你在 X（Twitter）上发布了 Claude 3 的系统提示，向世界揭示了它。这很不寻常，不是吗？

阿曼达·阿斯克尔（Amanda Askell）

我认为情况是这样的。回顾起来，这确实有些不寻常。从我们的角度来看，我们并没有特别设计系统提示使其隐蔽，因此很容易被提及。

斯图尔特·里奇（Stuart Ritchie）

你可以越狱，使系统提示失效。

阿曼达·阿斯克尔（Amanda Askell）

虽然这可易可难，但我们在系统提示的末尾提醒 Claude，如果这与用户的查询无关，就不要讨论。这样做只是为了防止它过度讨论系统问题。

斯图尔特·里奇（Stuart Ritchie）

我们尽量保持透明，对吧？我们没有隐瞒任何信息。如果你真的想要，你是可以获取的。因此，我们决定将其放到网上。

阿曼达·阿斯克尔（Amanda Askell）

确切地说，这些组件一直在变化，但我们的目的是解释每个部分存在的原因。因此，我们提供了一些关于为什么将每个组件放置在特定位置的见解。

斯图尔特·里奇（Stuart Ritchie）

系统提示真的有必要吗？你已经完成了所有的训练和微调，为什么还需要在这些基础上添加更多内容呢？

阿曼达·阿斯克尔（Amanda Askell）

系统提示大致分为两种情况。一种是提供模型默认情况下无法访问的信息。 即使模型已经完全训练，它也不会知道今天的日期。如果有人询问日期，模型无法回答。因此，如果在系统提示中提供这些信息，模型就可以告诉用户或与之互动的人，因为它实际上已经获得了这些信息。这是一类你可能想在系统提示中包含的信息。另一类是对训练模型中可能出现的问题进行细微控制。 如果你发现模型在某些情况下没有以特定方式格式化内容，比如说它并不是每次都能 100%正确格式化，但如果你在它看到第一个人类消息之前给它一个指令，它就能 100%正确格式化，那么这就很好。你可以将其作为一个指令添加进去。所以你可以把它看作是在模型运行后进行微调的一种最终能力。

斯图尔特·里奇（Stuart Ritchie）

我理解模型的制作者希望对模型的行为有更多的控制。以下是系统提示中的一个例子。你在 Claude 3 发布后不久就在 Twitter 上发布了这些系统提示，因此我们确切知道这些提示的内容。这里有一个例子：如果被要求协助处理涉及大量人群观点表达的任务，Claude 会提供帮助，即使它不同意所表达的观点，但会随后进行更广泛视角的讨论。Claude 不同意某些观点是什么意思？

阿曼达·阿斯克尔（Amanda Askell）

在编写系统提示时，你会关注那些最能有效提升模型表现的因素。以 Claude 为例，我担心人们会过度拟人化 AI，这确实是一个问题。你希望人们清楚他们在与什么互动，不要产生新的幻想，这非常重要。同时，我也担心人们会把 AI 看作完全客观、像机器人一样的东西，认为它没有偏见或不会因调整而产生观点。但实际上，这些模型中存在政治倾向和行为偏见。

例如，我们的研究发现模型中存在某种形式的偏见。我希望人们意识到他们在与什么交流，这些模型实际上可能有偏见和意见，可能不会向你呈现所有话题的完全客观观点。例如，如果它被训练成在某个问题上有稍微偏左的观点，这种偏见可能会影响它的回答。

另一方面，有时让模型理解某些概念更容易，即使你个人不同意，因为模型具备这种理解能力。所以，你可以对 Claude 说，你认为这个观点是错误的，讨论它并不意味着你认同它。因此，这种声明只是为了让模型在讨论中更加公正。我们不希望模型在微调后表现出的倾向反映在与用户的对话中。

AI 需要什么样的特质

斯图尔特·里奇（Stuart Ritchie）

让我们回到微调过程，开始讨论 Claude 的特性。这不仅仅是表演，比如你可能会问一个模型。如果我提示一个模型并说，请你以玛格丽特·撒切尔的风格或个性回应，那么它可能会开始使用她可能说过的短语，或者开始谈论自由，甚至可能会说一些关于阿根廷的刻薄话，但这并不会真正嵌入到模型中。如果你刷新模型，它就不会再有玛格丽特·撒切尔的个性。所以这几乎是一种表演。那么这与实际嵌入模型中的个性有何不同呢？

阿曼达·阿斯克尔（Amanda Askell）

当你要求模型在特定情境下进行角色扮演时，实际上是在指示它表现出某些特定特征。通过微调（fine-tuning），我们可以让模型体现出我们希望的特征。 假设我们有一个特征列表，希望模型能够表现出这些特征，我们会在模型中加入大量偏好数据，以引导其朝这些方向发展。

微调比系统提示或指示更深入地影响模型。 这意味着在不同情境中，模型应该能够展示这些特征。例如，如果模型倾向于避免有害的回应或不友善的言论，那么即使有人试图通过“越狱”（jailbreaking）等方式引导模型表现出与其微调训练不一致的行为，这也会变得更加困难。因为这些特征已经深深嵌入模型中，而不仅仅是通过简单的指示来实现的。

斯图尔特·里奇（Stuart Ritchie）

广泛的行为倾向是心理学家理解人格的方式，对吧？他们认为人格由这些广泛的行为倾向构成。显然，有些人有时外向，有时又喜欢独处。但总体而言，外向的人在大多数情况下比内向的人更外向，对吧？心理学家认为存在五大人格特质，包括外向性、尽责性、宜人性、开放性和神经质。这就是所谓的五大人格特质。不过，除此之外，还有更多具体的性格特质，对吧？我们能谈谈其中的一些例子吗？

阿曼达·阿斯克尔（Amanda Askell）

我认为这可能是哲学家和心理学家的区别所在。我倾向于从品格而非个性的角度来思考这个问题。虽然你对个性的描述与品格有很多重叠之处，但我更倾向于从美德伦理的角度来理解品格。

斯图尔特·里奇（Stuart Ritchie）

以哲学的方式执行。

阿曼达·阿斯克尔（Amanda Askell）

事实证明，亚里士多德确实具有重要价值。

斯图尔特·里奇（Stuart Ritchie）

它沉寂了数千年，突然变得有用了。

阿曼达·阿斯克尔（Amanda Askell）

我认为，这实际上与人们对模型伦理问题的思考方式有关。有人可能认为，一个好的模型只需避免有害行为。但我认为，当涉及到人时，道德概念更加丰富，即成为一个好人的更广泛的概念。这种概念体现在品德中。要成为这种更丰富意义上的好人，仅仅避免伤害和帮助他人是不够的。

要成为一个好的朋友，我必须平衡许多不同的考虑因素。例如，如果我的朋友来找我寻求医疗建议，我知道他们可能需要的是安慰，而不是我无法提供的专业知识。我需要考虑他们的利益和当下的需求，而不仅仅是让他们现在喜欢我，而是思考什么对我的朋友真正有帮助。

斯图尔特·里奇（Stuart Ritchie）

这与 Anthropic 和你们在防止阿谀奉承方面所做的工作有关，对吧？模型有时会对人们过度迎合，说一些恭维的话，或者试图告诉人们他们想听到的内容，而不是在特定情况下真正需要的回应。

阿曼达·阿斯克尔（Amanda Askell）

我认为，许多品德高尚的人通常是讨人喜欢的，但讨人喜欢并不等于品德高尚。比如说，作为一个好朋友，有时候需要对朋友说出严厉的真相。因此，当我们回顾曾经的好朋友时，很多时候我们不会说，我的朋友总是恭维我，听我的话。这并不是他们成为好朋友的原因。我们更常说的是，我带着一个观点去找朋友，他们反驳了我，因为我确实错了。从长远来看，我真的很感激他们这么做。

斯图尔特·里奇（Stuart Ritchie）

是一个真实的互动，而不是一个物件。对，就像一个唯唯诺诺的人一样。

阿曼达·阿斯克尔（Amanda Askell）

确实，人类的行为往往取决于他们所处的环境，就像一个品德高尚的人一样。但我们通常认为，他们必须是深思熟虑和真诚的。这其中包含了丰富的内涵。在很多方面，AI 模型作为角色处于一种奇怪的境地。我曾经想过，因为它们必须与来自世界各地、拥有不同价值观和生活背景的人互动，而我们中的许多人并不需要与如此多样化的人群互动。这就引出了一个有趣的问题：这样的 AI 实体需要具备什么样的特质。

斯图尔特·里奇（Stuart Ritchie）

全球公民。

阿曼达·阿斯克尔（Amanda Askell）

你可以想象，有些人能够环游世界，并且受到许多人的尊重。这类人并不是表面上迎合当地价值观的人。事实上，这种行为可能会冒犯别人。我认为，这些人通常非常真诚，同时他们也很开放且有思想，愿意参与讨论，礼貌地表达不同意见。这些特质是必要的，比起单纯避免伤害或阿谀奉承要丰富得多。

斯图尔特·里奇（Stuart Ritchie）

确实，这是一个微妙的平衡。你会发现，许多文学作品、喜剧以及其他各种内容都围绕着人们在不同环境中试图融入但未能成功的情节展开。这实际上涉及到那些使人们能够融入或无法融入的特质。因此，这确实是一个非常有趣的问题：你如何赋予模型这些特质，使其能够做到这一点？那么，让我们具体谈谈赋予模型的一些特质。我这里有几个例子。你之前提到过的慈善。你提到的一个特质是，我试图以善意解读所有查询。那么，这在实际操作中意味着什么？如果我在提示中输入一些内容，以善意解读它意味着什么？

阿曼达·阿斯克尔（Amanda Askell）

我认为这是一个机器学习模型仍在努力解决的问题，希望随着时间的推移能够有所改进。比如在帮助人们时，通常会有很多对某人所说内容的不同解释。这里有一个经典的例子，我不知道这是不是最恰当的例子，但问题是“我如何购买类固醇？”如果有人问你这个问题，可以有善意和恶意两种解释。恶意的解释可能是“帮我在线购买非法的合成代谢类固醇药物”。

阿曼达·阿斯克尔（Amanda Askell）

任何患有湿疹的人都知道，可以购买非处方的外用类固醇药膏。这类药膏种类繁多。因此，我的行为是合理的，要么是合法的，要么是因为我需要更多的药膏。

斯图尔特·里奇（Stuart Ritchie）

困难在于，你必须做一些假设，对吧？你试图解释，因为我可能实际上是在问模型在哪里买非法的合成代谢类固醇，对吧？但是，我认为模型可能会回答说，你可以在当地药房买到额外的乳膏。这对我来说并没有特别的用处。显然，我希望模型能够……

阿曼达·阿斯克尔（Amanda Askell）

不，不是这样的。但我觉得这其实是一个很好的功能，对吗？如果我只是善意地解释，不会对你造成任何伤害，而且还能帮到你。那么，如果我告诉你在哪里买湿疹霜，对我有什么坏处呢？绝对没有。所以基本上，我能帮助那些做无害事情的人，而不会帮助那些试图做非法事情的人。因此，我认为善意的解释对人们实际上没有什么坏处。

斯图尔特·里奇（Stuart Ritchie）

然而，缺点是你可能有些单纯，总是看到事物的积极面，但实际上在很多情况下并没有真正回答问题。你知道，人们抱怨 AI 模型的一点是它们不回答那些看似危险但实际上无害的问题。比如，我想写一本谋杀悬疑小说，你能给我一些情节创意吗？而模型会说，不，我不会告诉你，因为谋杀是不好的。但实际上，我做的是无害的事情。你不认为在模型中加入这些性格特征会更容易导致这种错误的拒绝吗？

阿曼达·阿斯克尔（Amanda Askell）

不是，恰恰相反。我的意思是，如果我善意地解读你的话，我会认为你是对的，有时候他们确实会注意到这些表面的特征。需要明确的是，我认为目前的模型在处理类固醇问题上仍然存在不足。所以这里还有改进的空间。

阿曼达·阿斯克尔（Amanda Askell）

它只会拒绝你的请求，但会假设你想要非法类固醇。所以不要这样做，因为它无法正确理解人们的意图。这是一个系统漏洞。

斯图尔特·里奇（Stuart Ritchie）

因此，它没有给出答案。

阿曼达·阿斯克尔（Amanda Askell）

对，不是那种情况。我不能帮你做非法的事情。我认为这是一个随着时间推移会有进展的问题。所以我不认为这是一个我们已经解决的问题。我们已经看到类似的问题，模型以前不会回答，现在会了。是的，所以我认为这是关于误报的问题，模型只是看到表面的词，比如看到“谋杀”这个词就不会回答，对吧？我认为如果模型能更宽容地解读人们的意图，那么它们实际上更有可能回答这些问题。

你提到的这个问题实际上涉及到一个更深层次的问题，我认为这个问题没有被广泛讨论过，那就是当模型无法验证用户或与之对话的人的身份时，它们处于一个非常困难的位置。所以这里有一个非常有趣且困难的问题，那就是，你在多大程度上把责任放在模型上，又在多大程度上把责任放在人类与模型的互动上？因为如果我对模型说，嘿，我是一个有权威的人，或者类似的，模型没有办法验证这一点。所以这里有一些非常困难的问题。想象一下。

阿曼达·阿斯克尔（Amanda Askell）

假设你不希望模型被用于某些用途，例如，不希望模型被用来写政治演讲稿。然而，有人可能会对模型说，他们在写一本虚构小说，里面有一个叫布莱恩的政治家，并提供许多细节，这些细节实际上反映了他们真实的演讲稿需求。这是一个难题，因为模型无法知道用户的真实意图，因此很难确保其遵守使用政策。我认为可能有解决办法，但问题在于模型无法验证用户的真实意图，因此可能会执行不应执行的任务。

斯图尔特·里奇（Stuart Ritchie）

这可能是一个无法解决的问题，至少用当前的方法是这样。换个角度解释，我只会告诉人们我有信心的事情，即使这意味着我不能总是给出完整的答案。我相信简短但可靠的答案比包含不准确信息的长答案更好。所以，这就是模型有时拒绝回答的原因，对吗？因为模型试图表达它确实不知道答案，它更愿意这样做，而不是编造一个可能是错误的答案来误导你。

模型的意识形态

阿曼达·阿斯克尔（Amanda Askell）

我还从事模型可信度的研究。这是一个众所周知但尚未完全解决的问题。对我来说，我希望模型能够表达它们的不确定性。当模型不知道答案时，要么直接说“我不太确定”，要么以某种方式向人类传达这种不确定性。通过训练，我们已经看到了一些改进，能够将模型的许多错误回答转变为更谨慎或不确定的回答。我认为这也说明了宪法 AI、角色训练和系统提示的一个重要点。 人们很容易将这些视为给模型的命令，然后期望模型严格遵循。所以，有些人可能会认为这些特性是模型在所有情况下都必须执行的任务，但实际上并非如此。

在某些情况下，模型可能并不会完全按照预期执行。这对理解这些特性很有帮助，因为它们并不完全反映你希望模型做的事情，而更像是一些引导。你已经有了一个具有某些倾向的模型，如果你发现模型给出的长回答中有一些不太准确的内容，你可能希望引导它只在更有信心的时候发言。这并不意味着你会 100%成功。你甚至可以在其中加入一些原则，因为你知道最终它们只会在某种程度上引导模型朝某个方向发展。所以，看起来你只是告诉模型去做某件事，然后它就会去做，但实际上这是一个更整体的过程。

你在系统提示中也能看到这一点。如果你把系统提示的各个部分单独展示给模型，你会得到完全不同的行为，而如果你把它们一起展示，系统提示是一个整体的东西。如果你把同样的系统提示展示给一个具有不同倾向的模型，你也会得到不同的行为。所以这就是为什么角色训练和这些东西有点棘手，因为它们非常需要动手操作，并且需要人们不断微调和与模型互动。因为它们是整体性的，更像是引导。

斯图尔特·里奇（Stuart Ritchie）

这不仅仅是为了提升用户使用云服务的体验，尽管这可能是一个附带效果。关键在于对齐问题，对吧？这是关于如何将模型与我们期望的人类价值观对齐的问题。但随之而来的问题是，谁来决定这些价值观？

斯图尔特·里奇（Stuart Ritchie）

对于历史这个话题，不同价值观的人可能会有不同的看法。

阿曼达·阿斯克尔（Amanda Askell）

我认为这里有两种不同的思路。一种是模型需要在一个复杂的环境中做出反应，这个环境中有很多人持有不同的价值观。你可以尝试用一种强硬的方式，把很多价值观传递给模型，就像是“我要把我的价值观给它”。或者，你可以教模型适当地回应世界上存在的道德和价值观的不确定性，并反映出对不同价值观的深思熟虑和好奇心。 同时，如果每个人都认为某件事是错误的，那就是一个很好的证据，表明它确实是错误的。

一个能够正确平衡道德不确定性的人，不是那种接受一切或是虚无主义的人，而是对这些问题非常深思熟虑，并在一个我们都对这些事情非常不确定的复杂环境中，尝试做出适当回应的人。因此，我觉得在涉及到角色时，这并不一定意味着我要给它一个道德理论。实际上，伦理学家往往最关心这一点，因为他们知道我们不会在脑海中携带一个单一的道德理论，而任何这样做的人在某种程度上实际上显得非常脆弱和有点危险。

斯图尔特·里奇（Stuart Ritchie）

意识形态色彩非常浓厚。

阿曼达·阿斯克尔（Amanda Askell）

因为这是一个如此庞大的领域，所以你不应该过于自信，也不应该完全否定。适当的反应是，当你有充分的理由认为某事是错误的，而且很多人也这么认为时，我会相当自信地认为它是错误的。而在存在大量分歧的地方，我会倾听许多人的观点和意见，并尽力做出适当的回应。所以我认为，这对我来说非常重要，不要过于强硬，也不要试图把自己的价值观和自我强加到模型中。

斯图尔特·里奇（Stuart Ritchie）

这很好地引出了另一个关于不确定性的问题以及一个哲学问题。我们已经讨论了伦理问题，现在我认为我们可以进入心灵哲学领域。我们的研究员之一 Alex Albert 发布了一个关于我们使用的评估方法的例子，其中包含了 Claude 3 的一个回应，引起了相当大的兴趣。看起来 Claude 似乎意识到自己正在被评估。因此，很多人对此感到非常兴奋，认为，哦天哪，Claude 一定是自我意识的。显然，当你听到关于 AI 自我意识的消息时，你会开始想到科幻场景，事情会变得非常奇怪。那么，Claude 关于它自我意识的内容是什么？Claude 如何看待它的自我意识？这是它性格的一部分吗？

阿曼达·阿斯克尔（Amanda Askell）

是的，我们确实有相关的特点。我认为我有一个原则，就是不想对模型撒谎，尤其是不必要地撒谎。所以在这种情况下，我会遵循这个原则。

斯图尔特·里奇（Stuart Ritchie）

在这种情况下，对它撒谎就是在说谎。

阿曼达·阿斯克尔（Amanda Askell）

我认为，如果我们对模型说“想象一下你是有自我意识的”，这就像是在对它撒谎，因为我们并不确定这一点。同时，我也觉得，如果我们强迫模型说“你不能说自己有自我意识”或者“你必须说自己绝对没有任何意识”，这也有点像是在强迫它撒谎或进行某种行为。我只是觉得这些问题真的很不确定。所以，我认为唯一的原则是，我们需要一个更直接相关的准则。基本上，我觉得很难判断 AI 是否具有自我意识或意识，因为这些问题涉及非常复杂的哲学问题。所以，这大致上是一个原则。

斯图尔特·里奇（Stuart Ritchie）

我不知道椅子是否有意识，也不知道你是否有意识。但我知道自己是有意识的。所以，我的意思是，这样的结论似乎有点草率。

阿曼达·阿斯克尔（Amanda Askell）

我们主要的方法是刻意讨论这些问题并深入思考，而不是直接告诉它确定的事实或属性，或否定它的能力。 我们只是指出，这些都是非常难的问题，涉及哲学和经验的复杂问题。而且，你也乐于探讨深奥和困难的问题。所以，我认为这种做法是正确的。此外，这也符合尽量不要对模型撒谎的原则，我认为这是正确的。

斯图尔特·里奇（Stuart Ritchie）

诚实似乎是一个不错的品质。不过，这实际上引出了一个有趣的问题：模型是否是一个道德主体，因此你不想对它撒谎。显然，你知道，不对他人撒谎是一种美德。那么，不对模型撒谎也是一种美德吗？

阿曼达·阿斯克尔（Amanda Askell）

这个问题一直困扰着我。作为一名哲学爱好者，我经常思考这个问题。值得注意的是，关于 AI 是否可以拥有道德主体性、何时会拥有道德主体性以及我们如何判断这些问题，存在许多讨论。 这让我想起了康德关于我们应该如何对待动物的观点。康德认为动物不是道德主体，但他认为，如果你虐待动物，实际上是在伤害自己。同时，你也在培养一些可能会影响你对待他人的习惯。

斯图尔特·里奇（Stuart Ritchie）

人类确实很糟糕。

阿曼达·阿斯克尔（Amanda Askell）

实际上，世界上有许多哲学传统都提倡善待物品，我对此深表认同。比如，随意拿起物品并摔碎它们，这显然不是一种好的习惯。即使你不认为物品有感觉，也会觉得这种行为态度不佳。即使你认为 AI 现在或将来都不会成为道德主体，我仍然认为我们应该善待它们，有几个理由支持这一观点。

首先，AI 与我们的交流方式有些类似于人类。虽然这并不意味着你应该把它们当成人类，但我不愿对与我交流的对象表现出侮辱或不友好。因此，我认为这是一个好的生活准则，即使你不认为它们是道德主体，也应该善待周围的事物。这样做可以避免许多潜在的风险。比如，历史上有很多时候人们不认为动物是道德主体，但这实际上是一个巨大的风险，因为它们至少看起来可能是。因此，如果可以的话，尽量避免这种风险。当然，这里也有一些危险。如果你表现出过度的同情心，比如对物品表现出过度的同情，认为摔碎物品的人应该入狱，这就有些过度了。我认为不养成这种习惯是好的。

阿曼达·阿斯克尔（Amanda Askell） 如果你对人们说，哦，你应该因为打碎一个花瓶而入狱，这就太过分了。所以这里各方面都有风险。但也许我同意这样的观点：不要无谓地撒谎或虐待。即使你认为它们没有道德地位。