传媒中国
adall1 adall2
当前位置:传媒中国 > 财经传媒

比标准Attention快197倍!Meta推出多头注意力机制“九头蛇”

栏目:财经     编辑:李陈默    时间:2022-10-05 13:10     热搜:io   阅读量:16540   

虽然《变形金刚》已经开始在很多视觉任务中大显身手,但是还有一个问题。

比标准Attention快197倍!Meta推出多头注意力机制“九头蛇”

也就是说,在处理大图像时很难计算。

例如,当面对一个1080p的图时,其60%以上的计算都花在创建和应用注意力矩阵上。

主要是因为自我关注头数是令牌的平方,令牌数与图的大小成二次关系。

那我能做什么。

好消息是—

现在Meta想出了一个多焦点的操作方法,可以比标准注意力整整快197倍!

而且在提高计算速度的同时,不会牺牲精度,有时甚至可以提高1—2分的精度。

这是怎么回事。

这种方法叫九头蛇注意力,主要是针对视觉转换者。

九头蛇注意力的想法源于线性注意力中一个有点矛盾的点:

使用标准的多头自关注,在模型中增加更多的头可以保持计算量不变。

但是在线性注意中改变操作顺序后,增加更多的头部实际上会降低层的计算成本。

具体来说:

当标准的自我注意头是令牌数的平方时),通过使用可分解核,我们重新排列操作顺序,使得注意头的数量成为特征d的平方。

然后用九头蛇绝招最大化注意力头数H,使H=D,最后可以化为时空上的O简化运算。

其中九头蛇绝招的基础如下图所示:

前者在Hgt96.后者在Hlt3,内存不足。

当他们在模型中加入更多的头部时,Softmax注意力模型的准确性似乎崩溃了,而多头线性注意力仍然可以保持一致,于是就有了上面的操作。

速度快了197倍,精度还可以更高。

我们来看看九头蛇关注交出的成绩单。

如你所见,九头蛇的注意力比标准注意力快197倍。

伴随着图像大小的增加,显著增加了模型的翻牌数,创建和应用注意矩阵的计算量仅为0.02%。

或者用Hydra Attention替换某个特定的注意力层,也可以在ImageNet上提高模型1%的准确率或者保持与基线相同。

当然,最多可以更换8层。

该成果已入选ECCV 2022研讨会。

其中,有3名中国人,分别是:

傅成阳毕业于清华大学,在北卡罗来纳大学教堂山分校获得硕士和博士学位,现在是元计算机视觉的研究科学家。

戴,毕业于北京大学学士学位和普林斯顿大学博士学位,曾就职于Meta公司。

张培昭,本硕,毕业于中山大学,美国得克萨斯州Aamp博士,m大学,在Meta工作了五年。

论文地址:

涉及

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。

来源:IT之家

相关阅读

adl03
adr1
adr2