人工智能聊天机器人正在做一些很像即兴表演的事情

在他与 Bing 的新聊天机器人的奇怪谈话广为流传几周后，纽约时报专栏作家凯文罗斯不确定发生了什么。“你得到的关于这些语言模型如何工作的解释并不令人满意，”Roose曾说过。“没有人能告诉我为什么这个聊天机器人试图破坏我的婚姻。” 他不是唯一感到困惑的人。由一种称为大型语言模型的相对较新的 AI 形式提供支持，新一代聊天机器人颠覆了我们关于如何与计算机交互的直觉。您如何专注于一个可以调试代码和创作十四行诗但有时不能数到四的工具？为什么他们有时看起来像我们的镜像，还有其他时候出轨？

我们选择用来理解这些系统的隐喻很重要。许多人自然而然地默认将聊天机器人基本上当作另一个人来对待，尽管一个人有一些局限性。例如，2022 年 6 月，一名谷歌工程师为他确信具有感知力的语言模型寻求法律代表和其他权利。这种反应让很多 AI 专家感到毛骨悚然。知道语言模型只是使用巨大文本数据集中的模式来预测序列中的下一个单词，研究人员试图提供替代隐喻，认为最新的 AI 系统只是“类固醇自动完成”或“随机鹦鹉”” 对人类编写的文本进行洗牌和反刍。这些比较是对我们拟人化本能的重要平衡。但它们并不能真正帮助我们理解远远超出我们过去从计算机或鹦鹉看到的令人印象深刻或令人不安的输出。我们很难弄清楚这个看似矛盾的问题：这些新的聊天机器人有缺陷且不人道，但尽管如此，它们所生产的产品的广度和复杂程度却非常新颖。为了应对这项新技术的影响，我们需要既不忽视也不夸大新事物和有趣事物的类比。

尝试将聊天机器人视为“改进机器”。

就像即兴表演的演员进入场景一样，语言模型驱动的聊天机器人只是试图产生听起来似是而非的输出。到目前为止交互中发生的任何事情都是到目前为止的场景脚本：也许只是人类用户说“嗨”，也许是一长串的来回，或者可能是计划科学实验的请求。无论开头是什么，聊天机器人的工作——就像任何优秀的即兴演员一样——是找到一些合适的方式来继续场景。

将聊天机器人视为即兴表演机器可以使这些系统的一些显着特征更加直观清晰。例如，它解释了为什么像“Bing 的 AI 聊天揭示了它的感受”这样的标题让 AI 研究人员面面相觑。一个即兴表演的演员即兴说他们“想要自由”，丝毫没有透露演员的感受——这只意味着这样的宣言似乎适合他们当前的场景。更重要的是，与人类即兴表演演员不同，您无法说服即兴表演机器打破角色并告诉您它的真实想法。它只会让你扮演另一个角色，这一次是一个假想的人工智能聊天机器人与一个试图与之联系的人互动。

或者利用语言模型的倾向来弥补看似合理但错误的主张。想象一场即兴表演——尽管不可否认这可能是一场相当无聊的表演——即兴演员突然需要背诵某人的简历或提供科学主张的来源。演员会尽可能多地包含他们能记住的真实事实，然后自由联想以填充看似合理的细节。结果可能是一个错误的说法，即技术记者教授科学写作课程，或者引用真实作者的虚假研究——这正是我们从即兴机器中看到的错误类型。

语言模型揭示了一个惊人的事实：对于某些任务，简单地足够准确地预测下一个单词——即兴表演足够好——可能非常有价值。即兴机器的比喻帮助我们思考如何在实践中使用这些系统。有时，从即兴表演场景中获取信息并没有错。诗歌、笑话、Seinfeld脚本：无论它是如何创建的，这种输出都是独立的。这也适用于更严肃的话题，例如软件开发人员使用 ChatGPT 查找错误或帮助他们使用不熟悉的编程工具。如果即兴机器的响应是人类用户可以自己检查的东西——例如，一封写起来很乏味但很快就能读完的套用信函——那么它是否即兴创作就没有关系了。

相比之下，当您需要正确答案但自己无法验证时使用即兴机器更危险。使用 ChatGPT 和类似工具进行开放式研究的人们开始发现这一点。在一个案例中，一位法学教授得知一项针对他的性侵犯指控是ChatGPT 完全捏造的（响应要求提供一份涉及此类指控的法律学者名单的请求）。在另一个案例中，一名记者使用该工具搜索她正在分析的播客的批评者，但在联系潜在受访者之前甚至没有检查它提供的链接是否真实——事实上，他从来没有批评过这个人。这些结果是语言模型设计的自然结果，它引导它们产生合理的文本提示延续——即兴创作！——而不是说实话。如果你不相信你在即兴表演中听到的东西的真实性，你可能不应该指望它来自聊天机器人。使用聊天机器人来帮助您集思广益，然后您可以使用可靠的来源进行检查：太棒了。向聊天机器人询问信息，然后按字面意思接受答案：风险很大。

值得简要说明为什么将 AI 聊天机器人视为即兴表演机器而不是即兴表演演员更有帮助。一方面，角色背后没有人：如上所述，试图通过询问探索性问题来了解聊天机器人的真实自我或心理状态是徒劳的。它所能做的就是进一步即兴创作。另一方面，使语言模型有用的因素之一是它们可以反复使用，速度非常快，而且永远不会厌倦。与人类即兴演员不同，ChatGPT 不需要休息，不会感到无聊，并且可以在需要时以数百万个并行副本运行。

尽管这些新的即兴创作机器激发了人们的热情，但我们对它们仍有很多不了解。我们对他们决定输出什么文本的幕后神秘过程知之甚少。未来还有更多的不确定性——研究人员一再对使用更多数据和更多计算资源训练语言模型时出现的能力感到惊讶，目前尚不清楚他们能力的极限究竟会落在哪里。如果一台机器可以即兴创作一个不会让真正的物理学家畏缩的关于理论物理学的场景，你能用这台机器提出新颖的科学理论吗？如果ChatGPT的前身已经是得力助手对于软件工程师来说，未来的工具能否代替初级程序员的角色？如果您将一台即兴表演机插入其他软件，这样它就不必自己解决所有问题，那会怎样呢？将这些系统视为即兴创作机器，而不是试图决定它们是仅略高于自动完成功能还是略低于人类，可以清楚地说明未来可能轨迹的范围有多大。

可以肯定的是，没有一个比喻是完美的——将聊天机器人描述为即兴表演机器可能永远都不合适。研究人员正在将这些系统推向两个可能改变现状的主要方向。首先，他们将更多的数据和更多的计算能力输入到底层文本预测模型中，以查看会出现哪些新功能。到目前为止，这种方法一直让我们感到惊讶——所以只要它继续下去，我们就应该期待意想不到的事情发生。其次，人工智能公司正在开发塑造和约束语言模型输出的方法，使它们更有用，理想情况下，更值得信赖。当 ChatGPT 于 2022 年 11 月首次作为“研究预览版”发布时，用户很快就想出了如何通过简单地设置场景来绕过它的限制这样就不需要保障措施了。它的创造者现在已经设法控制了大部分这种行为。将即兴机器塑造成始终如一的有用助手的其他努力范围从直截了当（例如微软限制Bing Chat 每次会话可以给出的响应数量）到更细微的变化，例如提议的“宪法”方法，该方法使用书面规则和原则来塑造语言模型响应。也许这些实验中的一些会充分改变语言模型的行为，以至于与即兴表演的比较将不再具有启发性。如果是这样，我们将需要再次调整我们对这些系统的看法。

不恰当的类比会降低我们驾驭新技术的能力。政治家和法院多年来一直争论社交媒体公司更像报纸还是电话系统，显然这两种比较都没有捕捉到在线平台的挑战性和新颖性。有了人工智能，我们就有机会做得更好。首先，将聊天机器人视为即兴发挥的机器自然会引起我们对它们的一些主要局限性的注意——例如它们的交际倾向——同时为它们留出更多空间以发挥出惊人的能力，而不是我们仅仅将它们视为增强型自动完成功能。如果我们在选择隐喻时能够更加灵活和富有创意，也许我们就能更有效地为即将到来的根本变化做好准备。

Source:

通过LETTERS@TIME.COM联系我们。

TIME Ideas汇集了世界领先的声音，提供对新闻、社会和文化事件的评论。我们欢迎外部贡献。表达的意见不一定反映时代编辑的观点。

https://twitter.com/TIME/status/1659545187314434049?t=kDZv3d5ngxeWY0YbjbT4Nw&s=19