方差是统计学中常用的一种衡量数据变异程度的方法,它衡量的是每个数据点和其均值之间的差异。虽然方差通常被用来描述离散度,但我们常常使用平方差,而不是绝对值,这是为什么呢?
首先,平方的好处是可以忽略掉正负号。如果你要计算一个数和另一个数之间的差异,用绝对值可以衡量。
其次,平方可以突出极端值的影响。如果某个数据点的值与均值之间的差异非常大,那么它们的平方会更大,因此可以更有效地衡量此点对数据集的整体差异的贡献。
方差是每个数据点和其均值之间平方差的平均数。例如,下面是一个包含五个数据点的数据集:
3, 6, 2, 8, 4
首先,计算这些数的平均值:
(3 + 6 + 2 + 8 + 4) / 5 = 4.6
接下来,计算每个数据点和均值之间的平方差:
(3 - 4.6)2 + (6 - 4.6)2 + (2 - 4.6)2 + (8 - 4.6)2 + (4 - 4.6)2
= 2.56 + 0.16 + 6.76 + 10.24 + 0.36
最后,计算这些平方差的平均数:
(2.56 + 0.16 + 6.76 + 10.24 + 0.36) / 5 = 4.424
因此,这个数据集的方差为 4.424。
方差在统计学和机器学习中被广泛使用,用于评估各种事物之间的差异。例如,在贝叶斯统计中,可以使用方差来表示先验概率分布的精度。在机器学习中,方差可以用于选择最佳的模型,或者作为特征选择的一种方式。
方差不是一个优秀的统计指标,因为它受极端值的影响很大。如果数据集中有一个或多个异常值,方差会被拉高,从而导致我们低估或高估数据的离散度。
此外,方差只能测量一阶矩(均值)和二阶矩(差异)之间的关系。对于更高阶矩,比如偏度(斜度)和峰度,方差无能为力。
除了方差,还有一些衡量离散程度的方法,例如标准差和平均绝对离差。标准差是方差的平方根,它衡量数据集中每个数据点与均值之间的差异。平均绝对离差是每个数据点与均值之间的绝对差异的平均数。
方差的平方差方法不仅可以忽略正负号,更能凸显极端值的影响。它在统计学和机器学习中得到广泛应用,但也存在局限性。除方差外,还有其他衡量离散程度的方法可以选择。