优势
为什么效果好?
每一层输入的分布能够在不同的训练steps中保持一致,而不是稀奇古怪的分布,比如伽马分布 F分布等,这样能够使得每一层学习起来更加容易。
有的人认为这增加了模型的拟合能力才会比较好?