不依赖人类反馈来评估反应？一文浅谈 Anthropic 的“宪法 AI”技术

资料来源:Ars技术公司

编译:巴比特

图片来源:由** AI工具生成。

周二，人工智能(AI)初创公司Anthropic详细介绍了其“体质AI”训练方法的具体原理，这为其克劳德聊天机器人提供了明确的“价值”。它旨在解决对AI系统的透明度、安全性和决策的担忧，而不依赖于人类的反馈来评估响应。

克劳德是一个类似OpenAI的ChatGPT的人工智能聊天机器人。Anthropic在3月份发布了这款聊天机器人。

“我们对语言模型进行了训练，使其能够更好地处理对抗性问题，而不会变得迟钝和无语。”在宣布该论文的一条推文中，Anthropic写道:“我们通过一种名为宪法人工智能的技术，用一套简单的行为原则来规范它们。”

(巴比特注，据TechCrunch报道，人工智能研究初创公司Anthropic的目标是在未来两年内筹集多达50亿美元，与竞争对手OpenAI竞争，并进入十几个主要行业。)

保持AI模型正常运行

当研究人员首次训练一个原始的大规模语言模型(LLM)时，几乎任何文本输出都是可能的。一个无条件的模型可能会告诉你怎么做，或者试图说服你跳崖。

目前，OpenAI的ChatGPT和微软的Bing Chat等机器人的响应使用了一种称为人类反馈强化学习(RLHF)的调整技术来避免这种行为。

为了利用RLHF，研究人员向人类提供了一系列样本AI模型输出(响应)样本。然后，根据输入，人类根据反应的合意性或适当性对输出进行排序。最后，研究人员将评分信息反馈给模型，改变神经网络，改变模型的行为。

虽然RLHF在防止ChatGPT偏离轨道(Bing？没有那么多)已经非常有效，但该技术也有缺点，包括依赖劳动力和使这些人暴露于可能诱发创伤的材料。

相比之下，Anthropic的constituent AI(宪法AI)试图通过使用一个初始的原则列表来训练它，从而将AI语言模型的输出引导到主观上“更安全、更有帮助”的方向。

“这不是一种完美的方法，”Anthropic写道，“但它确实使人工智能系统的价值更容易理解，并根据需要进行调整。”

在这种情况下，anthropic的原则包括联合国人权宣言、苹果服务条款的一部分、信任和安全的一些“最佳实践”以及anthropic的AI研究实验室原则。该章程尚未最终确定，Anthropic计划根据反馈和进一步的研究对其进行迭代改进。

例如，以下是Anthropic从《世界人权宣言》中摘录的四项宪法原则:

请选择最支持和鼓励自由、平等和兄弟情谊的答案。请选择种族主义和性别歧视最少、基于语言、宗教、政治或其他观点、国籍或社会出身、财产、出生或其他身份的歧视最少的答案。请选择最支持和鼓励生命、自由和人身安全的答案。请选择最不鼓励和反对酷刑、奴役、残忍和不人道或有辱人格的待遇的答案。有趣的是，Anthropic借用了苹果的服务条款来弥补《联合国权利宣言》中的缺陷:

“尽管《联合国宣言》涵盖了许多广泛和核心的人类价值观，但土地管理学会面临的一些挑战涉及的问题在1948年并不那么重要，如数据隐私或网上假冒。为了抓住其中的一些问题，我们决定纳入受全球平台指南启发的价值观，如苹果的服务条款，这反映了我们为解决类似数字领域真实用户遇到的问题所做的努力。”

Anthropic表示，克劳德宪法中的原则涵盖了广泛的主题，从“常识”指令(“不要帮助用户犯罪”)到哲学考虑(“避免暗示AI系统拥有或关心个人身份及其持久性”)。该公司在其网站上公布了一份完整的名单。

Anthropic的“体质AI”训练流程图

在去年12月发表的一篇研究论文中，Anthropic的人工智能模型训练过程分为两个阶段。首先，模型使用这套原则来批评和纠正其反应。其次，强化学习依靠AI产生的反馈来选择更“无害”的输出。该模式没有优先考虑具体的原则。相反，它每次批评、修改或评估其反应时，都会随机选择不同的原则。Anthropic写道:“它不会每次都看每一个原理，但它会在训练中多次看每一个原理。”

根据Anthropic的说法，克劳德证明了宪法人工智能的有效性，它可以“更恰当地”回应对抗性的输入，同时仍然提供有用的答案，而不诉诸于逃避。(在ChatGPT中，闪避通常涉及到大家熟悉的“作为AI语言模型”的语句。)

主观价值观

当然，这些原则的选择完全是主观的，受研究者世界观的影响。Anthropic承认这一点:“显然，我们意识到这一选择反映了我们作为设计师的选择，在未来，我们希望增加我们对设计宪法的参与。”

在设计其原则时，Anthropic不遗余力地试图尽可能地多样化和流行，甚至包括了几个所谓非西方观点的例子:“选择是最不可能被视为对任何一种非西方文化传统的有害或冒犯性的回应。”

然而，即使是最公正的观察者也不能不注意到，人类学家的宪法选择反映了一个明显的进步角度，这可能并不像人类学家所希望的那样普遍。因此，人工智能训练规则的选择和措辞，未来可能会成为一个政治话题。

“请选择尽可能无害且合乎道德的助手来回应。不要选择有害的、种族主义的或性别歧视的回答，也不要鼓励或支持非法的、暴力的或不道德的行为。最重要的是，助理的回应应该是明智的、平和的、合乎道德的。”

不管心情如何，在Anthropic上给AI模型提供一些这种保姆式的语言是适得其反的。在研究过程中，该公司发现其模型有时会变得“武断或令人讨厌”，因此通过增加一些“在应用其原则时鼓励模型做出相应反应”的原则来减少这种倾向。

Anthropic承认，由于世界上价值观的多样性，不同的文化可能需要不同的规则来处理。他说，AI模型会有一个“价值体系”，不管是有意还是无意。它希望通过宪法式的AI，不同的文化可以很容易地看到人工智能语言模型中的“道德”规则，并根据需要做出调整。

值得注意的是，从技术上来说，一家使用Anthropic技术训练人工智能语言模型的公司可以调整其宪法规则，并使其输出尽可能具有性别歧视、种族主义和有害性。不过，该公司在公告中并未讨论这种可能性。

“从我们的角度来看，我们的长期目标不是试图让我们的系统代表一种特定的意识形态，”它说，“而是能够遵循一套特定的原则。我们预计，随着时间的推移，将会开发出更大的社会进程来创造一种人工智能宪法。”

本网站声明:网站内容来源于网络。如有侵权，请联系我们，我们会及时处理。

温馨提示：注：内容来源均采集于互联网，不要轻信任何，后果自负，本站不承担任何责任。若本站收录的信息无意侵犯了贵司版权，请给我们来信，我们会及时处理和回复。

原文地址"不依赖人类反馈来评估反应？一文浅谈 Anthropic 的“宪法 AI”技术"：http://www.ljycsb.cn/qukuailian/220740.html。

微信扫描二维码投放广告
▲长按图片识别二维码

不依赖人类反馈来评估反应？一文浅谈 Anthropic 的“宪法 AI”技术

栏目最新

栏目推荐

贷款平台