Transformer论文引用破4万,两位作者离开谷歌创业

2022-05-09 07:42:33热度:264°C

 

编辑:张倩

「在谷歌,我们训练出了越来越大的 Transformer,梦想着有朝一日构建一个通用模型来支持所有 ML 用例。 但是,这其中有一个明显的局限: 用文本训练出的模型可以写出很棒的散文,但它们无法在数字世界中采取行动。 你不能要求 GPT-3 给你订机票,给供应商开支票,或者进行科学实验。 」

在一场轰轰烈烈的「炼大模型」运动之后,全世界都在给这些模型寻找应用途径和场景,原谷歌大脑研究人员、Transformer 重要作者 Ashish Vaswani、 Niki Parmar 也不例外。

2017 年,Ashish Vaswani、Niki Parmar 和其他几位研究者一起发表了开启大模型时代的里程碑式论文——《 Attention Is All You Need 》。在这篇论文中,他们提出了著名的 Transformer 架构。2018 年,一个名为 BERT 的模型引爆了 NLP 学界,刷新了 11 项 NLP 任务的 SOTA 记录,其背后功臣正是 Transformer。

打开凤凰新闻,查看更多高清图片

Ashish Vaswani、Niki Parmar 等人 2017 年发表的《 Attention Is All You Need 》。注意:∗ 表示这些研究者做出了不同方面但同等重要的贡献(排名随机)。其中,Ashish 和 Illia 一起设计并实现了第一批 Transformer 模型,并重度参与了 Transformer 架构的各方面工作。Niki 在原始代码库和 tensor2tensor 中设计、实现、调优和评估了无数的模型变量。

在之后的几年里,Transformer 成为自然语言处理领域的主流架构,而且成功跨界到了视觉、音频处理等多个领域,标志性的「xxx is all you need」也成为火爆一时的标题模板。

五年过去,Ashish Vaswani、Niki Parmar 决定踏上新的征程。在最近发布的推文中,他们宣布自己参与创办了一家新的创业公司——Adept,致力于让人和计算机以创造性的方式一起工作,从而实现通用智能。「我们相信,人工智能系统应该以用户为中心,我们的愿景是让机器与坐在驾驶员位置上的人一起工作:发现新的解决方案,使决策更加明智,并给我们更多的时间做我们喜欢的工作。」该公司在介绍中写道。

除了 Ashish Vaswani 和 Niki Parmar,该公司还聚集了多位 AI 领域的顶级研究者(基本都在谷歌工作过),包括:

前谷歌大脑研究工程师 Anmol Gulati,他参与了谷歌的大规模语音和语言建模研究;

前谷歌大脑研究科学家 Augustus Odena,他参与构建了谷歌的代码生成模型;

前 OpenAI 加州实验室工程副总裁 David Luan,后来也加入过谷歌大脑,他是 GPT-2、PaLM ( 的论文作者之一,还参与了 GPT-3 的部分工作;

在 DeepMind、谷歌大脑、百度都工作过的 Erich Elsen,他是机器学习和高性能计算交叉领域的研究人员,在 DeepMind 参与领导大模型的训练工作,致力于提高训练效率;

前谷歌大脑软件工程师 Fred Bertsch,他是数据和协作人工智能系统方面的专家;

前谷歌 ML 产品经理 Kelsey Schroeder,她曾领导谷歌大模型生产基础设施产品;

曾在谷歌大脑实习的 MIT 博士 Maxwell Nye,他的研究重点是使用深度学习和符号技术来自动编写代码。在谷歌实习期间,他曾使用非常大的语言模型(> 1000 亿个参数)来编写和理解 Python 程序。

Adept 创始团队。

那么,这些大牛为什么要离开谷歌这种大厂自己创业呢?他们的新公司要做什么产品呢?

David Luan 在公司的第一则博客中写道:

在谷歌,我们训练出了越来越大的 Transformer,梦想着有朝一日构建一个通用模型来支持所有 ML 用例。但是,这其中有一个明显的局限:用文本训练出的模型可以写出很棒的散文,但它们无法在数字世界中采取行动。你不能要求 GPT-3 给你订机票,给供应商开支票,或者进行科学实验。

真正的通用智能要求模型不仅能读能写,还能以一种对用户有帮助的方式采取行动。这就是我们创立 Adept 的初衷:我们正在训练一个神经网络来使用世界上的每一款工具和 API,该网络建立在人们已经创造的大量现有能力的基础上。 ‍

实际上,我们正在创建一个通用系统,帮助人们在电脑前完成工作,我们管这个系统叫:每个知识工作者的「通用合作者」。你可以把它想象成你电脑里的一个 overlay,它和你一起工作,使用和你一样的工具。

使用 Adept,你能专注于你真正喜欢的工作,并要求模型承担其他任务。例如,你可以要求模型「生成月度合规报告」,所有这些都使用现有的软件,如 Airtable、Photoshop、ATS、Tableau、Twilio。我们希望这个「合作者」是一个好学生,可训练性非常强,非常有帮助。

这一产品愿景让我们兴奋不已,不仅因为它对每个在电脑前工作的人来说都非常有用,还因为我们相信这是实现通用智能最实用、最「安全」的途径。与生成语言或自行决策的大型模型不同,我们的模型范围更窄——我们是现有软件工具的接口,更容易缓解偏见问题。对我们公司来说至关重要的是,我们的产品如何成为一种工具,来了解人们的偏好,并在每一步中整合人类的反馈。

从这则博客中我们可以看出,Adept 虽然也宣称要实现 AGI,但他们选择的是一条不同的道路,即先不着急用 AI 取代人类,而是致力于用 AI 来增强人类的能力,这听起来似乎更容易实现。

当然,这并不是什么新鲜概念。《深度学习》一书作者、被称为「世界 AI 之父」的特伦斯 · 谢诺夫斯基(Terry Sejnowski)早在 2019 年就说过,「在未来,人类与机器将是合作而非竞争关系」。作为实现 AGI 之前的过渡阶段,「协作智能」的概念越来越受关注。澳大利亚最大的国家级科研机构——CSIRO 首席研究科学家 Cécile Paris 甚至指出,「(协作智能)将成为数字化转型的下一个科学前沿」。目前,国内外都涌现了很多以「用 AI 增强人类能力」为愿景的技术公司,比如循环智能、容联云等。在真正的 AGI 实现之前,可能会有越来越多的公司选择这条路线。

David Luan 透露,目前 Adept 已经拿到了 6500 万美元的融资,Uber CEO Dara Khosrowshahi、特斯拉 AI 高级总监 Andrej Karpathy 等人都是他们的天使投资人。

相关文章