Multi-head Self-attention
Multi-head Self-attention
Self-attention 有一个进阶的版本,叫做 Multi-head Self-attention, 至于需要用多少的 head,这个又是另外一个 hyperparameter,也是你需要调的。
那为什么我们会需要比较多的 head 呢?我们在做这个 Self-attention 的时候,我们就是用
所以假设你要做 Multi-head Self-attention 的话,你会怎么操作呢?

- 先把
乘上一个矩阵得到 - 再把
乘上另外两个矩阵,分别得到 跟 ,这边是用两个上标, 代表的是位置,然后这个 1 跟 2 代表是,这个位置的第几个 ,所以这边有 跟 ,代表说我们有两个 head
我们认为这个问题,里面有两种不同的相关性,是我们需要产生两种不同的 head,来找两种不同的相关性
既然
只是现在

所以
就跟 算 attention,也就是算这个 dot product,然后得到这个 attention 的分数 然后在做 weighted sum 的时候,也不要管
了,看 跟 就好,所以你把 attention 的分数乘 ,把 attention 的分数乘 然后接下来就得到
这边只用了其中一个 head,那你会用另外一个 head,也做一模一样的事情

所以
然后接下来你可能会把

也就是再乘上一个矩阵,然后得到