LOADING

加载过慢请开启缓存浏览器默认开启

深度学习笔记10

2024/2/6 深度学习笔记深度学习 Transformer 注意力机制有掩码的多头注意力 layer Norm

68. Transformer

layer Norm不同于Batch Normalization

BN是不同batch间的同一channel进行（这样才合理）

FFN：

训练：

预测：

bleu score 是一种测试评估函数，但不能作为训练损失函数，因为不能微分，就无法反向传播梯度下降