分散

読み: ぶんさん

ブンサン:データの散らばりを平均からのズレの2乗で表す指標

分散

概要

分散(ブンサン)は、データ平均からどれくらい散らばっているか(ばらつき)を表す指標。 各データの「平均との差」をそのまま足すと正負が打ち消し合うため、ズレを2乗して平均する。

計算方法

母分散(全体が母集団の場合)

データ \(x_1, x_2, \dots, x_N\) の平均を \(\mu\) とすると、
  • 母分散:\(\sigma^2=\frac{1}{N}\sum_{i=1}^{N}(x_i-\mu)^2\)

標本分散(標本から推定する場合)

データ数を \(n\)、平均を \(\bar{x}\) とすると、
  • 標本分散:\(s^2=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2\)
※ \(n-1\) で割るのは、不偏分散(フヘンブンサン:母分散を平均的に正しく推定するよう調整した分散)にするため。

データ:\(2, 4, 6\)
  • 平均:\(\bar{x}=(2+4+6)/3=4\)
  • 差:\(-2, 0, 2\)
  • 2乗:\(4, 0, 4\)
  • 母分散:\((4+0+4)/3=8/3\)
  • 標本分散:\((4+0+4)/(3-1)=4\)

分散と標準偏差の関係

\(\sigma=\sqrt{\sigma^2}\)、\(s=\sqrt{s^2}\)
  • 分散は「2乗の単位」になる(例:cm²)ため、元の単位(cm)に戻したいとき標準偏差を使う。

使いどころ

  • データのばらつき比較(例:テスト点の安定性)
  • リスク評価(金融では収益の分散が変動の大きさの目安)
  • 機械学習の損失や最適化(平均との差の2乗を使う場面が多い)

よくある注意点

  • 外れ値(ハズレチ:極端に大きい/小さい値)の影響を受けやすい(2乗するため)
  • 「母分散(Nで割る)」と「標本分散(n-1で割る)」を混同しやすい