深度学习 2.0 · Transformer 自注意力 一眼看完全文,立刻知道 “it” 指谁 “it” 向全文每个词发出注意力,权重越大线越粗 —— 高亮连向 the animal 缩放点积注意力 Scaled Dot-Product Attention Attention(Q,K,V) = softmax ( Q Kᵀ √dₖ ) V ① QKᵀ 算每对词相关性得分 ② ÷√dₖ · softmax 稳梯度,归一成权重 ③ ·V 按权重加权求和得输出 Encoder 编码器 自注意力 + 前馈 Decoder 解码器 多了:掩码注意力(防偷看未来)+ 交互注意力