Part II Deeper Tricks

AdamW + 超收敛

目前训练神经网络最快的方式：AdamW优化算法+超收敛。为什么当前经典的论文都是用SGDM来训练，为什么大家都觉得SGD比Adam收敛更好？Adam出现问题的原因是什么？

results matching ""

No results matching ""