方差、偏差、噪声

误差,随机误差和系统误差之间的关系

误差的来源可以分为系统误差(又称可定误差)、随机误差(又称未定误差)和毛误差(又称过失误差)

系统误差(System error)分为固定误差与比例误差,原因可能有仪器本身误差(instrumental errors)、采用方法的误差(method errors)、个人误差(personal errors)、环境误差(Environmental error)。理论上系统误差可以通过一定的手段(如:校正)来消除。举例而言,天平的两臂应是等长的,可实际上是不可能完全相等的;天平配置的相同质量的砝码应是一样的,可实际上它们不可能达到一样。

随机误差(Random error),无法控制的变因,会使得测量值产生随机分布的误差。它服从统计学上所谓的“正态分布”或称“高斯分布”,它是不可消除的,在这个意义上,测量对象的真值是永远不可知的,只能通过多次测量获得的均值尽量逼近。系统误差以相同的方式影响所有测量值,将它们推向同一个方向;随机误差,则随着不同次的测量而变化,有时候向上或向下。

毛误差(Gross error),毛误差主要是由于测量者的疏忽犯下不应有的错误造成的。例如读数错误、记录错误、测量时发生未察觉的异常情况等等,这种误差是可以避免的(如:舍弃有关数据重新测量)。

  • 系统误差中的个人误差(personal errors)与毛误差(Gross error)的差别
    个人误差又称人员误差,是由于测定人员的分辨力、反应速度的差异和固有习惯引起的误差。这类误差往往因人而异,因而可以采取让不同人员进行分析,以平均值报告分析结果的方法予以限制。
    毛误差主要是由于测量者的疏忽所造成的。

残差是原值与拟合值的差――与预测有关,残差大小可以衡量预测的准确性。残差越大表示预测越不准确。残差与数据本身的分布特性,回归方程的选择有关。

总平方和(SST)、回归平方和(SSR)与残差平方和(SSE)

\begin{split} &&SST = \sum_{i=1}^n(y_i-\overline{y})^2 \newline
&&SSE = \sum_{i=1}^n(y_i - \hat{y_i})^2 \newline
&&SSR = \sum_{i=1}^n(\hat{y_i}-\overline{y})^2 \end{split}

SST是真值与均值的差平方和:衡量的是被解释变量(Y)波动的程度或不确定性的程度
SSR是估值与均值的差平方和:衡量的是被解释变量(Y)不确定性程度中能被解释变量(X)解释的部分
SSE是真值与估值的差平方和:衡量的是被解释变量(Y)不确定性程度中不能被解释变量(X)解释的部分
SSE很容易理解,SSR可以理解为SST-SSE的余项。

偏差和方差

偏差刻画的是真值与预测值之间的偏离程度。

方差刻画的是模型在不同的样本集上performance的波动情况。

详参周志华《机器学习》(P45):

\begin{split} E_D[(f(x;D)-y_D)^2] &&= E_D[(f(x;D) - \overline{f}(x))^2] + (\overline{f}(x) - y)^2 +E_D[(y_D - y)^2] \newline
&&= var(x) + bias^2(x) + \epsilon^2 \newline
&& \overline{f}(x) = E_D[(f(x;D))] \newline
&& y_D \text{为x在数据集D中的标记; } y \text{为x真实标记; } f(x;D) \text{为算法在D上预测标记 }\end{split}

范化误差可以分解为偏差,方差与噪声之和。