16分钟的演讲足以震撼全场。
是的,他的原话是——
我们知道,预训练无疑会结束,同时我们不会再有任何数据。
原因是我们只有一个互联网,训练模型所需的海量数据即将枯竭。人工智能只有从现有数据中寻找新的突破口,才能不断发展。
Ilya 预测,未来的突破点将在于智能代理、合成数据和推理时间计算。

未来我们会去哪里?
伊利亚告诉我们:接下来出现的是超级智能()——智力、推理、理解和自我意识。

十年登顶,伊利亚感谢以前的同事

论文地址:
Ilya 感谢他的两位合著者 Oriel 和 Kwok-Lee,并发布了下面的图片。

这是十年前2014年蒙特利尔会议上类似演讲的截图。伊利亚说那是一个更纯粹的时代。
而现在,画面中的三名绿色少年,已经长成了下面这个样子。

伊利亚要做的第一件事就是展示10年前的同一篇演讲的PPT。
他们的工作可概括为以下三个要点:
这是一个基于文本训练的自回归模型;它是一个大型神经网络;它使用大规模数据集。

10 层神经网络只需几分之一秒的时间
下面,Ilya 和我们一起讨论“深度学习假说”。
如果你有一个 10 层的大型神经网络,它可以在几分之一秒内完成人类能做的任何事情。
为什么要强调几分之一秒?
如果你相信深度学习的基本假设,即人工神经元和生物神经元是相似的,并且你也相信真正的神经元比人类慢,可以快速完成任务,那么如果世界上只有一个人可以用更少的时间完成任务如果一项任务可以在一秒内完成,那么 10 层神经网络也可以做到。
只需将它们的连接嵌入到您的人工神经网络中即可。
这是我们的动力。
我们专注于 10 层神经网络,因为当时我们只能训练这层网络。如果你能突破10级,你一定能取得更大的成就。

下面的PPT描述了他们的“主要思想”。
核心思想是,如果你有一个自回归模型,并且它可以足够好地预测下一个标记,那么它实际上将抓取、捕捉和掌握任何后续序列的真实分布。
在当时,这是一个比较新颖的想法。
虽然它不是第一个应用于实践的自回归神经网络,但 Ilya 相信这是他们所确信的第一个自回归网络:如果你训练得足够好,那么你就会得到想要的结果。任何你想要的结果。
当时他们尝试的是翻译。这个任务现在看来很平常,但在当时却极具挑战性。

接下来,Ilya 展示了一些很多人可能从未见过的古老历史——LSTM。
对于那些不熟悉它的人来说,LSTM 是深度学习研究人员在出现之前使用的工具。可以认为是旋转 90 度,但稍微复杂一些。
我们可以看到,积分器( ),现在称为残差流( ),还涉及一些更复杂的乘法运算。

Ilya 还想强调的一件事是他们正在使用并行化。
不过,它不是普通的并行化,而是管道并行化(),并且每层神经网络都分配一个GPU。
这个策略在今天看来是不明智的,但当时他们并不知道。因此,他们使用了 8 个 GPU,速度提高了 3.5 倍。

法律从这里开始
最后,伊利亚发布了那次演讲中最有意义的PPT,因为它可以说是“法”的开始——
如果您有一个非常大的数据集并训练一个非常大的神经网络,那么成功是有保证的。
从广义上讲,这就是接下来发生的事情。

接下来,Ilya提到了一个真正经受了时间考验的思想——联结主义(),这就是深度学习的核心思想。
这个想法是,如果你愿意相信人工神经元有点像生物神经元,那么你就会相信超大规模的神经网络不需要达到人脑的水平就可以用来完成几乎所有的人类任务。可以做的事情。
但它和人类还是有区别的。因为人脑知道如何配置自己,所以它使用需要与参数一样多的数据点的最佳学习算法。
在这一点上,人类还是更优越的。

这一切最终导致了“预训练时代”。
这个时代可以用GPT-2、GPT-3和法律来定义。
在此,ILya 要感谢他的前同事 Alec、Jared 和 Dario。
这项技术是我们今天看到的所有技术进步背后的核心驱动力。

预训练时代即将结束
然而,我们所知道的预训练路线无疑将结束。
为什么?
这是因为,虽然计算能力通过更好的硬件、更好的算法和更大的集群而不断增长,但数据量并没有增长——我们只有一个互联网。
甚至可以说,数据是人工智能的化石燃料。它们是以某种方式创建的,现在我们已经达到了数据峰值,不能再有更多的数据了。
当然,现有的数据还是可以支持我们走很远的,但是我们只有一个互联网。

接下来会发生什么?伊利亚给出了以下预测。 (或者只是提一下别人的猜测)
首先,智能代理方面会有一些突破。这些能够独立完成任务的AI代理是未来的发展方向。
其次,会有一些晦涩难懂的合成数据,但这到底意味着什么?很多人会取得有趣的进步。
最后在推理过程中进行计算。最引人注目的例子是o1。预训练结束后,接下来我们应该探索什么? o1举了生动的例子。

下面是一个生物学的例子。
该图显示了哺乳动物的身体大小和大脑大小之间的关系。
在生物学中,一切都是混乱的,但这种紧密的联系是罕见的例子。
从人类及其近亲的进化分支来看,包括尼安德特人、能人等,大脑与身体比例的标度指数是不同的。
这意味着生物学中确实存在不同尺度的先例。
我们今天要扩展的内容可以说是我们知道如何扩展的第一件事。这个领域的每个人都会找到解决方案。
而且我们在相关领域也取得了惊人的进展。 10年前从事这一领域的人仍然会记得当时的自己是多么的无能为力。这两年进入深度学习的人可能无法产生共鸣。

超智能是未来,将与意识融为一体
伊利亚最后谈到的是超级智力()。这是一个公认的方向,也是研究人员正在构建的东西。
从本质上讲,超级智能与现在的人工智能完全不同。
我们目前拥有优秀的法学硕士和聊天机器人,但它们也表现出一些奇怪的不可靠性——经常感到困惑,但执行的评估远远超出了人类的能力。
尽管我们还不知道如何调和这一点,但迟早我们最终会实现人工智能真正具备实际意义上的智能体特征并学会推理的目标。
因为推理引入了更多的复杂性,所以一个可以推理的系统会变得越不可预测。相比之下,我们所知的深度学习是可预测的。
例如,那些优秀的国际象棋人工智能对于人类顶尖棋手来说是不可预测的。
所以我们未来要面对的是一些极其不可预测的人工智能系统,它们能够从有限的数据中理解事物,而不会感到困惑。
同样,自我意识也很有用,因为它构成了我们自己和世界模型的一部分。
当所有这些属性与自我意识结合在一起时,就会产生与现有系统在性质和特征上完全不同的系统,它们将具有令人难以置信和惊人的能力。

当然,目前还不清楚这会如何或何时发生,但它会发生。
至于这样的系统可能带来的问题,就留给大家自行想象了。
毕竟未来是无法预测的,任何事情都有可能发生。
参考:


