
图片
上一篇文章中,我们在讲方差和标准差时,用到的公式分母是 n。可是,如果你去翻现在的统计学教材,就会发现样本方差和样本标准差的分母写成了 n−1。这到底是为什么?难道以前的公式错了吗?
【一】 从 n 到 n−1:历史的演变
在统计学的发展早期,很多教材中的样本方差写法是:
图片
这样写很自然:它和总体方差的形式一模一样,也更容易记忆。
如果我们有一个总体(比如全校所有学生成绩),均值 μ 是已知的常数,当然可以除以 N。
但是在现实中,我们几乎从来拿不到整个总体的数据。我们只能通过抽样得到一部分数据(样本),再用样本均值来代替总体均值。
问题就出在这里。样本均值本身是一个估计量,它依赖于样本数据,因此会让计算出的方差偏小。换句话说,这样的样本方差(分母 n)是有偏的,不能准确地反映总体的真实波动。
到了 20 世纪以后,统计学家们(如 Fisher、Neyman 等)提出修正方案:
把分母改成 n−1,得到新的公式:
图片
这样计算的结果,平均而言,正好等于总体方差。它就是所谓的无偏估计。因此,现代教材普遍采用分母 n−1 的写法,逐渐形成了国际标准。【二】自由度的通俗解释很多同学还会问:为什么一定是 n−1,而不是 n−2、n−3?
要回答这个问题,就得先理解“自由度”是什么。
所谓自由度,可以理解为:数据里真正能自由变化的数量。
举个例子:
假设你有 5 个同学的分数,平均分已经算出来是 70。
前 4 个同学的分数,你可以随意决定;
但第 5 个同学的分数就不能随便了,因为它必须保证平均分仍然是 70。
所以,虽然你有 5 个数据点,但实际上只有 4 个是真正自由的。
这就是 n−1 的由来。
换句话说:在计算样本方差时,我们已经“用掉”了一个自由度去计算样本均值,因此在计算分散程度时,只剩下 n−1 个自由度。
【三】 一个简单的例子让我们用一个更直观的小例子:
假设有 3 个学生的成绩:60 分、70 分、80 分。样本均值是:
图片
如果用 分母 n=3 计算方差:
图片
如果用 分母 n−1=2 计算方差:图片
哪一个更接近总体方差?
如果这 3 个学生是从一个大班级里随机抽样的,那么用 n−1 得到的结果才是总体方差的“无偏估计”。
这就是为什么现代统计学坚持使用 n−1。
【四】 小结总体方差:分母是 N,因为均值是已知的常数。
样本方差:分母是 n−1,因为样本均值消耗了一个自由度。
历史原因:早期教材直接用分母 n,但统计学发展后发现这样会低估总体方差,因此改为 n−1,并成为今天的标准。
自由度的直观理解:就是“真正能自由变化的数据个数”。
📌 所以,今天我们在教材里看到的样本方差公式,并不是“突然改了”,而是统计学经过几十年的发展,逐渐形成的科学共识。
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报。配资炒股公司,免费配资网站,散户如何给股票加杠杆提示:文章来自网络,不代表本站观点。