Transformer 架构总览 · Decoder-only 五步流水线 RNN 串行逐字 → Transformer 并行铺开;解码塔五步堆叠 Nx,注意力带掩码保因果
RNN/LSTM:100 张卡片,逐字传 串行·慢,长句信息越传越歪 Transformer:一张纸,整句铺开 任意两词直接互看 · 可并行 · 不丢长程依赖 Decoder-only 五步流水线(自下而上) 堆叠 带掩码 Masked 只看自己+前面,看不到未来