Transformer
架构总览 · Decoder-only 五步流水线
RNN 串行逐字 → Transformer 并行铺开;解码塔五步堆叠 Nx,注意力带掩码保因果
RNN/LSTM:100 张卡片,逐字传
串行·慢,长句信息越传越歪
Transformer:一张纸,整句铺开
任意两词直接互看 · 可并行 · 不丢长程依赖
Decoder-only 五步流水线(自下而上)
N×
堆叠
带掩码 Masked
只看自己+前面,看不到未来
▶ 重播