68. Transformer
layer Norm不同于Batch Normalization
BN是不同batch间的同一channel进行(这样才合理)
FFN:
训练:
预测:
bleu score 是一种测试评估函数, 但不能作为训练损失函数,因为不能微分,就无法反向传播梯度下降
加载过慢请开启缓存 浏览器默认开启
layer Norm不同于Batch Normalization
BN是不同batch间的同一channel进行(这样才合理)
FFN:
训练:
预测:
bleu score 是一种测试评估函数, 但不能作为训练损失函数,因为不能微分,就无法反向传播梯度下降