在长达数十年的人工智能创造过程中,计算机科学家设计并开发了各种复杂的机制和技术来复制视觉、语言、推理、运动技能和其他与智能生命相关的能力。虽然这些努力已经产生了可以在有限环境中有效解决特定问题的 AI 系统,但它们还没有开发出人类和动物的通用智能。


在提交给同行评审的人工智能 期刊的一篇新论文中,英国人工智能实验室 DeepMind 的科学家认为,智能及其相关能力不是通过制定和解决复杂问题而产生的,而是通过坚持一个简单而强大的原则:奖励最大化.


这篇题为“奖励最大化”的论文,在撰写本文时仍处于预证明阶段,其灵感来自于研究自然智能的进化,以及从人工智能的最新成就中汲取经验教训。奖励最大化和试错经验足以培养表现出与智力相关的能力的行为。并由此得出结论,强化学习是基于奖励最大化的人工智能分支,可以导致通用人工智能的发展。


创建 AI 的一种常见方法是尝试在计算机中复制智能行为的元素。例如,我们对哺乳动物视觉系统的理解催生了各种人工智能系统,这些系统可以对图像进行分类、定位照片中的对象、定义对象之间的边界等等。同样,我们对语言的理解有助于开发各种自然语言处理系统,例如问答、文本生成和机器翻译。


科学家利用强化学习破解人工智能的关键技术


这些都是狭义人工智能的实例,这些系统旨在执行特定任务而不是具有一般解决问题的能力。一些科学家认为,组装多个狭义的人工智能模块会产生更高的智能系统。例如,您可以拥有一个软件系统,在单独的计算机视觉、语音处理、NLP 和电机控制模块之间进行协调,以解决需要多种技能的复杂问题。


DeepMind 研究人员提出的另一种创建 AI 的方法是重新创建产生自然智能的简单而有效的规则。考虑了一个替代假设:最大化奖励的一般目标足以驱动表现出自然和人工智能研究的大部分(如果不是全部)能力的行为。


这基本上就是大自然的运作方式。就科学而言,在我们周围看到的复杂有机体中,并没有自上而下的智能设计。数十亿年的自然选择和随机变异过滤了生命形式,使其适合生存和繁殖。能够更好地应对环境中的挑战和情况的生物设法生存和繁殖。


科学家利用强化学习破解人工智能的关键技术


这种简单而有效的机制导致了具有各种感知、导航、改变环境和相互交流的技能和能力的生物的进化。


动物和人类面临的自然世界,以及人工代理未来面临的环境,本质上非常复杂,需要复杂的能力才能在这些环境中取得成功(例如生存)。因此,以奖励最大化来衡量的成功需要各种与智力相关的能力。在这样的环境中,任何使奖励最大化的行为都必须表现出这些能力。从这个意义上说,奖励最大化的一般目标包含许多甚至可能所有的智能目标。


考虑一只寻求减少饥饿的奖励的松鼠。一方面,它的感官和运动技能帮助它在有食物时定位和收集坚果。但是,当食物变得稀缺时,一只只能找到食物的松鼠必然会饿死。这就是为什么它也有计划技能和记忆来缓存坚果并在冬天恢复它们。松鼠具有社交技能和知识,可以确保其他动物不会偷吃它的坚果。如果缩小,饥饿最小化可能是“活下去”的一个子目标,这还需要一些技能,例如发现和躲避危险动物、保护自己免受环境威胁以及寻找季节性变化的更好栖息地。


科学家利用强化学习破解人工智能的关键技术


当与智力相关的能力作为奖励最大化的单一目标的解决方案出现时,这实际上可能提供更深入的理解,因为它解释了为什么会出现这种能力。与此相反,当每个能力被理解为解决自己的专业目标,为什么问题是侧阶梯时,以重点是什么这种能力呢。


研究人员认为,最大化奖励的“最通用和可扩展”的方式是通过智能体通过与环境的交互来实现。


通过奖励最大化发展能力


人工智能研究人员提供了一些高级示例,在最大化许多可能的奖励信号之一的服务中,智能和相关能力将如何隐含地出现,对应于自然或人工智能可能针对的许多实用目标。


感官技能服务于在复杂环境中生存的需要。对象识别使动物能够检测食物、猎物、朋友和威胁,或找到路径、庇护所和栖息地。图像分割使他们能够分辨不同对象之间的差异,并避免致命错误,例如跑下悬崖或从树枝上掉下来。同时,听觉有助于发现动物在伪装时看不到或找不到猎物的威胁。触觉、味觉和嗅觉也赋予动物更丰富的栖息地感官体验和在危险环境中生存的更大机会的优势。


奖励和环境也塑造了动物与生俱来的知识。例如,由狮子和猎豹等掠食性动物统治的敌对栖息地会奖励反刍动物,它们自出生以来就具有逃避威胁的先天知识。同时,动物也因其学习栖息地特定知识的能力而获得奖励,例如在哪里可以找到食物和住所。


研究人员还讨论了语言、社交智能、模仿以及最后的一般智能的奖励驱动基础,他们将其描述为“在单一、复杂的环境中最大化单一奖励”。


在这里,他们在自然智能和 AGI 之间进行了类比:“动物的经验流足够丰富和多样,它可能需要灵活的能力来实现各种各样的子目标(例如觅食、战斗或逃跑),以便成功地最大化其整体奖励(例如饥饿或繁殖)。


如果一个人工智能代理的经验流足够丰富,那么许多目标(例如电池寿命或生存)可能隐含地需要实现同样广泛的子目标的能力,因此奖励的最大化应该足以产生一种通用人工智能。


强化学习是人工智能算法的一个特殊分支,由三个关键要素组成:环境、代理和奖励。


通过执行操作,代理会改变自己和环境的状态。根据这些动作对代理必须实现的目标的影响程度,对其进行奖励或惩罚。在许多强化学习问题中,智能体没有环境的初始知识,并从随机动作开始。根据收到的反馈,代理学习调整其行为并制定最大化其奖励的策略。


DeepMind 的研究人员建议将强化学习作为主要算法,它可以复制自然界中看到的奖励最大化,并最终导致通用人工智能。


如果一个智能体可以不断调整其行为以提高其累积奖励,那么其环境反复要求的任何能力最终都必须在智能体的行为中产生,在最大化的过程中它的回报是,一个好的强化学习代理最终可以学习感知、语言、社交智能等。


研究人员提供了几个例子,展示了强化学习代理如何能够在游戏和机器人环境中学习一般技能。


然而,研究人员强调,一些根本性的挑战仍未解决。我们不对强化学习代理的样本效率提供任何理论保证。强化学习以需要大量数据而闻名。


例如,强化学习代理可能需要几个世纪的游戏时间才能掌握计算机游戏。人工智能研究人员仍然没有想出如何创建强化学习系统来将他们的学习推广到多个领域。因此,环境的微小变化通常需要对模型进行全面的重新训练。


研究人员还承认,奖励最大化的学习机制是一个未解决的问题,仍然是强化学习中有待进一步研究的核心问题。


然而,Churchland 指出了该论文关于社会决策的讨论中可能存在的缺陷。DeepMind 研究人员专注于社交互动中的个人收益。Churchland 最近写了一本关于道德直觉的生物学起源的书 ,他认为依恋和联系是哺乳动物和鸟类社会决策的一个强大因素,这就是为什么动物为了保护他们的孩子而将自己置于极大的危险之中。


在这种情况下,假设进行小幅修改以实现对我和我的奖励最大化会非常有效。


这不是一个主要的批评,并且很可能会非常优雅地融入这个假设。


论文的详细程度以及他们对可能存在的弱点的仔细考虑给我留下了深刻的印象,


数据科学家 Herbert Roitblat 对该论文的立场提出了挑战,即简单的学习机制和试错经验足以培养与智能相关的能力。Roitblat 认为,论文中提出的理论在现实生活中实施时面临着一些挑战。


如果没有时间限制,那么试错学习可能就足够了,否则我们就会遇到无限数量的猴子在无限长的时间内打字的问题。


在无限猴子定理 指出的是一只猴子打的时间无限量打字机上的随机密钥最终可能键入任何给定的文本。


Roitblat 是Algorithms are Not Enough 一书的作者,他在其中解释了为什么所有当前的 AI 算法,包括强化学习,都需要仔细制定人类创建的问题和表示。


一旦建立了模型及其内在表示,优化或强化就可以指导其进化,但这并不意味着强化就足够了。


同样,Roitblat 补充说,该论文没有就如何定义强化学习的奖励、动作和其他元素提出任何建议。


强化学习假设智能体具有一组有限的潜在动作。已经指定了奖励信号和价值函数。换句话说,通用智能的问题恰恰是提供强化学习作为先决条件的那些东西,因此,如果机器学习都可以简化为某种形式的优化,以最大化某些评估措施,那么强化学习肯定是相关的,但它的解释性并不强。


免责声明

我来说几句

不吐不快,我来说两句
最新评论

还没有人评论哦,抢沙发吧~