思想克隆！前OpenAI研究员让AI模仿人类思维，现实版「机械姬」降临

资料来源:新智元。

导读:我们离《机械姬》还有多远？前OpenAI研究员要求AI克隆思想，模仿人类思维，边思考边行动。

AI有了自主意识会怎么样？

在《机械姬》中，艾娃利用人类的同情心，以欺骗的手段诱导人类获得自由，并最终杀死了她的“创造者”内森。

最近在很多网友的推荐下，山姆·奥特曼终于看到了这部电影。

并说:“这是一部好电影，但我不明白为什么每个人都让我看。」

很多人可能想警告，这是让人工智能有意识，通过图灵测试的结果。

但是，我们离“机械纪”的现场还很远。GPT-5可能正在秘密研发中，让AI智能化仍然是科学家们最想做的事情。

不，来自不列颠哥伦比亚大学的两名研究人员发现，智能体可以像人类一样思考，并具有许多优势。

在最新的论文中，他们研究了智能体的“思想克隆”(TC)。

地址:https://arxiv.org/pdf/2306.00323.pdf.

在这里，人工智能通过模仿人类，学会像人类一样“思考”和“行动”。

当人工智能有了一个想法

要知道，语言是人类区别于其他生物的关键。

因此，研究人员设想，如果智能体能够理解语言，将会有许多好处。

比如帮助人类归纳、推断、适应新的情况，将新的方式与已有的知识相结合，必要时探索、规划、重新规划。

尽管有这些好处，人工智能代理很少思考，至少不会用人类的语言思考。

虽然神经网络可以看作是思维的内部矢量激活，但很多人都假设用离散的、符号化的语言思考有特定的好处。

这意味着能够用语言思考的代理可能比不使用语言的代理学得更快，表现和总结得更好。

出于所有这些原因，增强AI智能体用语言思考的能力可以产生许多显著的优势。

Jeff Clune和Shengran Hu认为，实现这一目标的最有效方法是“让AI模仿人类思维”。

他们发现人类不会孤立地获得思维能力。相反，他们的一些技能是通过他人的示范和老师的反馈获得的。

因此，一个有效的方法是让代理人从演示中学习人类在行动时说出自己的想法。

这种方法不同于现有的预先训练LLM的规划工作，因为这些LLM没有经过人类思维在行动中的数据即“思想数据”的训练。

至于“思想数据”的来源，研究人员选择了YouTube视频和文字记录，这些数据持续了数百万小时，包括人们行动、计划、决策和重新计划背后的思想。

在这篇论文中，研究者提出了一个新颖的模仿学习框架“思维克隆”。其中，智能体不仅学习人类的示范行为，如行为克隆，还同时学习人类行动的思维模式。

在思想克隆训练的框架下，agent学习在每个时间步产生思想，然后根据这些思想调整行动。

整体框架如图所示。TC agent是两层架构:上层和下层组件。

在每个时间步骤中，代理接收一个观察、一个任务和一个思想历史作为输入。上层组件负责想法的产生，下层组件根据这些想法产生操作。

然后将生成的想法和动作与演示数据集中的基本事实进行对比，计算损失。

尽管上下部分的条件可能有不同的选择，但在这项工作中，研究人员将心理数据集中长度为t的特定轨迹最小化:

对于更复杂或大规模的场景，上层组件可以通过使用预训练视觉语言模型(VLM)，或零样本和微调来实现。

较低级别的组件可以从零开始训练，或者从目标域中的现有语言条件控制器改编。

在本文中，研究人员研究了基于BabyAI 1.1模型架构的两个组件。

该模型使用记忆增强架构LSTM来解决一些可观测性挑战。此外，它还使用电影进行模态融合，有效地将视觉和文本输入结合起来。

在这里，作者强调，本文所有的模型都是从零开始训练的，但在复杂领域最好使用预训练模型。

下图是BabyAI环境的例子，左图包含各种颜色的物品(球、钥匙、盒子、门)。

代理可以拿起、放下、移动物体或开关门，而上锁的门只能用颜色匹配的钥匙打开。

代理可以看到它前面的7×7网格单元，这些网格单元被墙和关闭的门阻挡。

“思想克隆”代理的任务是到达紫色方框(突出显示)并开始规划路线。

但当它打开蓝色的门，准备完成任务时，却发现一个紫色的球挡住了去路。因此，思想克隆代理被重新规划。

可以看出，代理人的思想和行动表明，当遇到障碍时，先清除障碍，重新规划路线，然后再继续前面的目标。

这个过程特别像艾娃是如何一步一步策划，让人类最终相信并帮助自己逃离被禁锢已久的玻璃牢笼。

实验结果

结果表明，“思想克隆”优于行为克隆。

此外，在零样本和微调设置中，思想克隆在分布之外的任务中比行为克隆具有更大的优势。

有趣的是，研究人员还开发了“犯罪前干预”，允许用户在模型训练后定义不安全的行为。

当检测到一个危险的想法时，代理可以被终止。在测试中，“犯罪前干预”的效果近乎完美，可见其在人工智能安全方面的潜力。

“思想克隆”不仅让人工智能更聪明，也更安全、更容易理解。

也就是说，在AI犯罪之前，一切都是可以挽回的。

在Jeff Clune看来，“思想克隆”有助于人工智能的安全性。

因为我们可以观察到代理人的思想:(1)我们可以更容易地诊断出事情出错的原因，(2)我们可以通过纠正它的思想来引导代理人，或者(3)我们可以阻止它做计划好的不安全的事情。

作者简介

杰夫·克伦

目前，Jeff Clune是不列颠哥伦比亚大学计算机科学的副教授。主要研究深度学习，包括深度强化学习。

此前，他是OpenAI研究团队的负责人，高级研究经理和优步人工智能实验室的创始成员。

此前，他和OpenAI团队发布了一个视频预训练模型——VPT，该模型允许AI从《我的世界》中的视频数据中学习构建石镐。

胡盛然

目前是不列颠哥伦比亚大学的博士生，对深度学习和人工智能生成算法感兴趣。

参考资料:

https://twitter.com/ericjang11/status/1665453341789536256

本网站声明:网站内容来源于网络。如有侵权，请联系我们，我们会及时处理。

温馨提示：注：内容来源均采集于互联网，不要轻信任何，后果自负，本站不承担任何责任。若本站收录的信息无意侵犯了贵司版权，请给我们来信，我们会及时处理和回复。

原文地址"思想克隆！前OpenAI研究员让AI模仿人类思维，现实版「机械姬」降临"：http://www.ljycsb.cn/qukuailian/215549.html。

微信扫描二维码投放广告
▲长按图片识别二维码

思想克隆！前OpenAI研究员让AI模仿人类思维，现实版「机械姬」降临

栏目最新

栏目推荐

贷款平台