混乱中的规律,原来中心极限定理 CLT这么清晰!

混乱中的规律,原来中心极限定理 CLT这么清晰!

 

中心极限定理(Central Limit Theorem, CLT)是抽样推断的理论基础,很多同学并没有完全理解,今天猫妮卡用喝咖啡的例子浅浅讲解一波:

假设你们学校有 10000 名同学,每个人每天早上喝咖啡的量差异很大:

  • • 有人只喝 50ml (浅尝辄止)
  • • 有人喝 200ml (正常杯)
  • • 还有人喝 400ml (咖啡重度爱好者)
  • • 甚至有人不喝(0ml)

这个全体同学的日喝咖啡量就是总体,它的分布很 “乱” — 不是正态分布(Normal Distribution),没有规律可言。

我们的目标是估算所有同学的平均日喝咖啡量(总体均值Population Mean),但问题是不可能挨个统计,因为实在太多了!

中心极限定理的核心是:

抽固定大小的样本,计算样本均值(Sample Mean),这些均值会近似正态分布。

我们分三步操作:

  • • 固定样本量,反复抽样。
  • • 每次随机抽 5 个同学,记录他们的喝咖啡量,算一个样本均值。
  • • 重复抽 1000 次,就得到了 1000 个样本均值。

观察样本均值的分布形状。虽然单个同学的喝咖啡量分布很散、毫无规律,但把这 1000 个样本均值画成直方图,你会发现形状变成了正态分布:「大部分样本均值集中在中间,只有少数在两端。中间的峰值,几乎等于全体同学的真实平均喝咖啡量(总体均值Population Mean)」

样本量越大,结果越精准。如果把样本量从n=5增加到n=30,再重复 1000 次抽样,样本均值的分布会更 “瘦高”:均值会更紧密地围绕在总体均值μ周围,波动变小

不管每个人喝咖啡的量有多乱(总体分布任意),只要你每次抽足够多的人算平均,这些平均值一定会呈正态分布,而且样本量越大,平均值越贴近全公司的真实平均水平。

 

0 条评论

发表评论