过拟合和欠拟合

机器学习的根本问题是优化和泛化之间的对立。优化是指调节模型获得最佳性能的过程，泛化则是训练好的模型在未知数据上的性能好坏。机器学习的目的在于获得更好的泛化，但是泛化又无法控制，只能通过优化来实现。

模型在训练数据上的损失越小，在测试数据上的损失也越小，则模型是欠拟合的，依旧存在改进空间。这时的模型还没有对训练数据中的所有模式完成建模。当迭代一定次数之后，泛化不会再提高，验证指标由不变到变差，就说明模型开始进入过拟合。在过拟合的情况下，模型仅会学习和训练数据有关的模式，对验证数据和未知数据是没有意义的。

最好的解决过拟合的方法是使用更多的训练数据。训练数据越多，泛化能力越好。如果不能获取足够多的数据，那么就需要调节模型允许存储的信息量，迫使模型集中学习最重要的模式。通过限制模型存储的信息量的方式进行降过拟合的方法，称为正则化。下面就针对常用的正则化方法进行一些介绍。

减小网络大小

防止过拟合的最简单方法是减小模型中可学习参数的个数（层数和每层的单元个数）。模型中可学习参数的个数通常称为模型的容量，参数多的模型拥有更大的记忆容量。

大规模的记忆容量可以在训练样本和目标之间轻松完成字典式映射，但对于泛化能力没有任何贡献。因为深度学习模型都擅长拟合训练数据而不是泛化。

当网络的记忆容量有限时，网络就必须开始学会对目标进行预测，这才是我们所需要的神经网络的能力。所以在设计模型时，必须在容量过大（过拟合）和容量不足（欠拟合）之间找到折中方案。寻找折中方案最佳的工作流程是在开始选择较少的层和参数，然后逐渐增加层和参数，直到层和参数的增加对验证的损失影响变得很小未知。

添加权重正则化

神经网络的模型也复合奥卡姆剃刀原理：简单模型比复杂模型更不容易过拟合。简单模型的参数值分布的熵更小，所以强制让模型权重只能取更小的值来限制模型复杂度，使权重值的分布更加规则也是降低过拟合的有效方法。

这个方法一般称为权重正则化，一般通过向网络损失函数中添加与较大权重值有关的成本来实现。这个成本有以下两种方式。

L1正则化，添加的成本与权重系数的绝对值成正比。
L2正则化，添加的成本与权重系数的平方成正比。L2正则化也称为权重衰减。

添加dropout正则化

对神经网络的某一层使用dropout，可以在训练过程中随机将这一层的一些输出特征丢弃。dropout比率是被丢弃的特征所占的比例，通常在\(0.2 \sim 0.5\)的范围内。

dropout的核心思想是在层的输出中引入噪声，打破不显著的偶然模式，如果没有噪声，网络会记住这些偶然。

大道至简，实用至上：Python编程指南

过拟合和欠拟合

减小网络大小

添加权重正则化

添加dropout正则化