Transformer——位置编码（Positional embding）

位置编码

为什么需要位置编码

Attention机制相较于RNN 以及LSTM 解决了以下两个问题：

长序列依赖问题
并行计算问题

但是由于并行计算，原有的词向量失去了其在原有语句中的位置信息。为了解决这个问题，故提出了位置编码这个方案。

位置编码机制

位置编码机制的核心就是将位置信息添加到原有词向量之中！
那我们来看下位置编码是怎么将位置信息添加到词向量之中的：
原先无位置编码的做法是对输入Je 进行self-attention运算，得到N维词向量 $x_1$ 。引入位置编码之后，我们对位置信息也计算出一个N维位置词向量 $t_1$ ，输入词向量 $x_1$ 与位置词向量 $t_1$ 进行叠加，我们便能得到蕴含位置信息的词向量 $X_1$ 。
在这里插入图片描述

位置编码运算

公式：
$PE(pos,2i)=sin(pos/10000^{2i/d_{model}})$
$PE(pos,2i+1)=cos(pos/10000^{2i/d_{model}})$
来源于和差化积公式：
$sin(\alpha+\beta) = sin\alpha*cos\beta+cos\alpha*sin\beta$
$cos(\alpha+\beta) = cos\alpha*cos\beta-sin\alpha*sin\beta$

由此，我们可以得到如下公式：
$PE (p os + k, 2 i) = PE (p os, 2 i) * PE (k, 2 i + 1) + PE (p os, 2 i) * PE (k, 2 i)$
$PE (p os + k, 2 i + 1) = PE (p os, 2 i + 1) * PE (k, 2 i + 1) - PE (p os, 2 i) * PE (k, 2 i)$

这意味这第 $p os + k$ 位置的词向量 $t_{pos+k}$ ，其可以由第 $p os$ 位的词向量信息 $t_{pos}$ 和第 $k$ 位的词向量信息 $t_k$ 经过线性组合得到，这也就可以说明第 $p os + k$ 个位置的单词会和第 $p os$ 以及第 $k$ 个单词存在关联关系，也就可以证明：这个词向量蕴含了位置关系，可以区分不同词向量 $X_i$ 之间的位置关系。

注：位置最合理的表示是0,1,2,3,4…，但是每个词用的是嵌入向量表示，不是一个值，没法加，所以得做一个变换映射成嵌入维度，变换后还得包含位置属性，正好和差化积公式可以包含。

最后举个计算的例子方便大家理解：

pos	word	i = 0		i = 1		i = 2
0	我	$sin(0/10000^{0/6})$	$cos(0/10000^{1/6})$	$sin(0/10000^{2/6})$	$cos(0/10000^{3/6})$	$sin(0/10000^{4/6})$	$cos(0/10000^{5/6})$
1	有	$sin(1/10000^{0/6})$	…	…	…	…	…
2	一只	$sin(2/10000^{0/6})$	…	…	…	…	…
3	猫	$sin(3/10000^{0/6})$	…	…	…	…	…

和差化积详细推导公式

$PE(pos,2i)=sin(pos/10000^{2i/d_{model}}) (pos = \alpha+\beta)$

$sin(pos/10000^{2i/d_{model}})=sin(\alpha/10000^{2i/d_{model}}+\beta/10000^{2i/d_{model}})$
$=sin(\alpha/10000^{2i/d_{model}})*cos(\beta/10000^{2i/d_{model}})+cos(\alpha/10000^{2i/d_{model}})*sin(\beta/10000^{2i/d_{model}})$
$=PE(\alpha,2i)*PE(\beta,2i+1)+PE(\alpha,2i)*PE(\beta,2i)$