在人工智能(AI)领域,注意力机制是当今最具变革性的技术之一,为机器学习模型提供了理解数据序列的能力,极大地推进了自然语言处理(NLP)、计算机视觉和机器翻译等领域的进步。
然而,很少有人知道,这一突破性的机制并非由单一的研究或团队创造,而是源自三项开创性的研究,这些研究在十年时间里独立发声,共同为注意力机制的诞生奠定了基础。
2014 年:蒙特利尔大学 Yoshua Bengio 实验室
2014 年,一位名叫 Dzmitry Bahdanau 的实习生加入了蒙特利尔大学 Yoshua Bengio 的深度学习实验室。Bahdanau 当时正致力于机器翻译项目,他对如何避免编码器-解码器循环神经网络(RNN)之间的信息瓶颈感到困惑。
灵感来自他高中英语学习中翻译练习的启发,Bahdanau 提出了一种新的方法,让解码器 RNN 学会搜索放置光标的位置,以便重点关注源序列中的相关部分。他称之为“RNNSearch”,并将其写入了论文《通过联合学习对齐和翻译进行神经机器翻译》。
2014 年:剑桥大学 Alex Graves 实验室
在大洋彼岸的英国剑桥大学,Alex Graves 实验室正在探索一种不同的方法来解决机器翻译中的信息瓶颈问题。Graves 认为,通过建立一个带有两个光标的模型(一个在源序列中移动,另一个在目标序列中移动),并使用动态规划对光标轨迹进行边际化,可以实现源序列和目标序列之间的显式对齐。
Graves 将这一方法命名为“RNN 转导器”,并将其发表在论文《使用循环神经网络生成序列》中。尽管 Graves 和 Bahdanau 的方法在概念上相似,但它们有着不同的动机和出发点,突显了不同研究人员在相同技术积累临界点上独立提出相似创新。
2014 年:多伦多大学 Jason Weston 实验室
在多伦多大学,Jason Weston 实验室正在研究一种名为“记忆网络”的全新神经网络架构。记忆网络旨在克服传统神经网络在处理长期依赖关系方面的限制,它包含一个外部存储器,解码器可以从中检索信息。
与 Bahdanau 和 Graves 的方法不同,记忆网络中的注意力机制被用作检索机制,允许解码器有选择性地从存储器中提取相关信息。这为注意力机制在表示学习中作为核心算法的潜力打开了大门,最终为 Transformer 架构的诞生铺平了道路。
注意力机制的演变:Transformer 的崛起
尽管这三项研究分别提出了注意力机制的不同方面,但它们共同为这个概念的演变和最终在 Transformer 架构中的应用奠定了基础。
2017 年,谷歌 AI 的研究人员发表了一篇开创性的论文《注意力就是你所需要的》,其中提出了 Transformer 架构,它完全基于自注意力机制。
Transformer 引入了一个多头注意力机制,它允许模型对输入序列的不同部分施加不同的关注,极大地提高了机器翻译、自然语言理解和计算机视觉等任务的性能。
一个好名字的重要性
值得注意的是,尽管 Bahdanau 的“RNNSearch”方法是注意力机制的原始概念,但 Yoshua Bengio 提出的“注意力”这个名称更加直观,抓住了该概念的核心本质。
正如 Bahdanau 在他写给 Andrej Karpathy 的原始邮件中指出的,“一个好的名字确实可以提升技术的传播和影响力”。自此,“注意力”一词已成为该技术不可或缺的一部分,并被广泛认可为 AI 领域最重要的进步之一。
结论
注意力机制的诞生是一个技术积累、不同动机和巧妙创造力的共同作用的迷人故事。通过将这三项开创性研究的幕后故事汇集在一起,我们可以欣赏到这个强大的技术的复杂旅程,以及它如何彻底改变了人工智能领域。
从 Bahdanau 在蒙特利尔大学的实习到 Graves 在剑桥大学的突破,再到 Weston 在多伦多大学的创新,注意力机制的演变是一个团队合作、灵感迸发的典范,最终为 Transformer 架构的诞生铺平了道路,并开启了 AI 应用程序的新时代。
原创文章,作者:讯知在线,如若转载,请注明出处:http://bbs.xzxci.cn/2024/12/05/28500.shtml