注意力机制
Q·Kᵀ 算相似度 → ÷√dₖ 缩放 → Softmax → 加权求和 V
▶ 重播