天天动画片 > 八卦谈 > LIMoE:多模态稀疏化专家混合模型

LIMoE:多模态稀疏化专家混合模型

八卦谈 佚名 2023-08-15 21:12:21

稀疏化模型(sparse model)是未来深度学习中最有前景的研究方向之一。稀疏模型不是对每个输入都使用模型的每个部分进行处理,而是采用条件计算学习将输入路由到巨大网络中的不同“专家”处。这样做有很多好处,首先可以做到在保持计算成本不变的前提下增大模型——这既是一种有效且环保的模型缩放方式,也是高性能的关键,而稀疏性成为了划分神经网络的依据。密集模型(dense model)往往同时学习或顺序学习很多不同任务,这会使它们受到负面干扰,比如任务种类太多时不如针对每个任务训练一个模型,又或者随着新任务的增加而导致模型对之前任务的作用效果变差,从而表现出灾难性遗忘现象。而稀疏化模型则有助于避免这两个问题——避免将整个模型应用于所有的输入,使得模型中的“专家”在专注于不同的任务或数据类型时,仍然可以使用模型的共享部分。

Google Research长期以来一直在研究稀疏性。Pathways提出了构建一个统一的大模型的研究愿景,希望该模型能够处理数千个任务和众多数据模式。到目前为止,语言(Switch、Task-MoE、GLaM)和计算机视觉(Vision MoE)的稀疏单峰模型已经取得了相当大的进展。如今,谷歌的研究人员通过研究大型稀疏模型,通过与模态无关的路由同时处理图像和文本,朝着 Pathways 愿景迈出了重要的一步。其中涉及到一种多模态对比学习的方法,它需要对图像和文本都有扎实的理解,以便将图片与正确的文本描述对齐。迄今为止,解决此任务的最强模型均依赖于每种模态的独立网络(“双塔”方法)。

在本文中,作者展示了第一个使用稀疏专家混合的大型多模态架构。它同时处理图像和文本,但使用的是自然专门化的稀疏激活专家。在零样本图像分类任务上,LIMoE 优于同规模的密集多模态模型和双塔方法。最大的 LIMoE 在ImageNet上实现了 84.1% 的zero-shot准确率,效果可以和训练代价更高的SOTA模型相媲美。稀疏性使 LIMoE 能够优雅地扩大规模并学会处理各种不同的输入,这使得它能够成为多面手和万事通。

稀疏化专家混合模型(Sparse Mixture-of-Experts Models

Transformer虽然最初是为了解决文本任务而提出的,但是目前很多研究表明它同样适用于图像、视频和音频等多种模态。最近的大规模MoE模型在Transformer架构中添加了专家层(例如NLP中的gShard和ST-MoE以及CV中的Vision MoE)。

一个标准的Transformer由许多“块”组成,每个“块”都包含不同的层,其中一层是前馈网络(FFN)层。对于LIMoE和上面所提到的工作都是将单个FFN层替换成包含多个并行FFN的专家层,每个FFN都代表一个专家。给定一个要处理的token序列,一个简单的路由器会学习预测哪些专家应该处理哪些token。对于每个token只激活少量与之有关的专家,这就意味着尽管模型内包含如此之多的专家,但是我们仍能通过稀疏化地使用它们来控制实际计算成本。如果只激活一名专家,该模型的成本大致相当于标准的Transformer模型。

LIMoE也正是这么做的,让每个输入数据激活一个专家,从而实现与密集模型相当的计算代价。不同的是,LIMoE可能会看到两种模态的token。

当MoE模型尝试将所有token发送给同一个专家时,会出现一种独特的失败模式。通常这个问题会通过引入辅助损失函数、鼓励平衡使用专家的目标函数来解决。然而,作者又发现在多模态与稀疏性的共同作用下引入辅助损失的方法失效了。因此,作者又提出了新的辅助损失(更多的细节见论文)并且在训练阶段使用了路由优先级(BPR),这两项创新造就了稳定且高性能的多模态模型。

LIMoE中的对比学习

在多模态对比学习中,模型在成对图像-文本数据(例如图片及其描述)上进行训练。一般情况下研究者会使用一个图像模型来提取图像表示,同时使用另一个文本模型来得到文本表示。对比学习的目的是鼓励同一图像文本对中的图片表示和文本表示接近,而来自不同对的图片文本表示则相远离。这种通过对齐表示训练得到的模型可以适应新任务而无需额外的训练数据(“zero-shot”),例如图像表示相比单词“猫”的文本表示,更接近单词“狗”的文本表示,此时该图片就会被分类为狗。这个想法扩展到数千个类别,被称为zero-shot图像分类。

CLIP和ALIGN(都是双塔模型)扩展了该过程,在ImageNet数据集上达到了76.2%和76.4%的zero shot分类准确率。而LIMoE-L/16可以达到78.6%,已经超越了CLIP。并且未经过预训练的LIMoE H/14则能达到84.1%的精度。

理解LIMoE的行为

LIMoE的灵感来自于直觉,即稀疏条件计算可以使多模态模型仍能包含擅长理解每种模态的专家。作者在分析LIMoE的专家层时发现了一些有趣的现象。首先看到了模态专家的出现,由于在训练设置中图像token比文本token多得多,因此所有专家都倾向于至少处理一些图像,然而有些专家会主要处理图像,有的主要处理文本,又或者两者兼具。

其中图像专家之间也有一些明确的定型模式——例如在大多数LIMoE中,有一个专家处理所有包含文本的图像块。在下面的示例中,一位专家处理动物和绿色植物,另一位专家处理人的手。

未来

能够处理多个任务的多模态模型是一条非常有前景的道路,其中影响成功的关键因素主要有两个:

(1)规模;

(2)在利用不同任务和模态的信息时能避免其相互干扰。稀疏条件计算是兼顾两者的绝佳方式,它支持高性能和高效的通用模型,并且这些模型能在单个任务中表现出色的性能和灵活性,而LIMoE证明了这一点。


原文链接:

https://ai.googleblog.com/2022/06/limoe-learning-multiple-modalities-with.html


来源 | GoogleAI Blog
译者 | 任志博
单位| 东北大学自然语言处理实验室

本文标题:LIMoE:多模态稀疏化专家混合模型 - 八卦谈
本文地址:www.ttdhp.com/article/37558.html

天天动画片声明:登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。
扫码关注我们