深度学习 2.0 · Transformer 自注意力
一眼看完全文,立刻知道 “it” 指谁
“it” 向全文每个词发出注意力,权重越大线越粗 —— 高亮连向 the animal
缩放点积注意力 Scaled Dot-Product Attention
Attention(Q,K,V) =
softmax
(
Q Kᵀ
√dₖ
)
V
① QKᵀ
算每对词相关性得分
② ÷√dₖ · softmax
稳梯度,归一成权重
③ ·V
按权重加权求和得输出
Encoder 编码器
自注意力 + 前馈
Decoder 解码器
多了:掩码注意力(防偷看未来)+ 交互注意力
▶ 重播