层归一化 LayerNorm 与前馈层 FFN
逐 token 归一化 · 逐位置先升维再降维
▶ 重播