分散
読み: ぶんさん
概要
分散(ブンサン)は、データが平均からどれくらい散らばっているか(ばらつき)を表す指標。 各データの「平均との差」をそのまま足すと正負が打ち消し合うため、ズレを2乗して平均する。計算方法
母分散(全体が母集団の場合)
データ \(x_1, x_2, \dots, x_N\) の平均を \(\mu\) とすると、- 母分散:\(\sigma^2=\frac{1}{N}\sum_{i=1}^{N}(x_i-\mu)^2\)
標本分散(標本から推定する場合)
データ数を \(n\)、平均を \(\bar{x}\) とすると、- 標本分散:\(s^2=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2\)
例
データ:\(2, 4, 6\)- 平均:\(\bar{x}=(2+4+6)/3=4\)
- 差:\(-2, 0, 2\)
- 2乗:\(4, 0, 4\)
- 母分散:\((4+0+4)/3=8/3\)
- 標本分散:\((4+0+4)/(3-1)=4\)
分散と標準偏差の関係
\(\sigma=\sqrt{\sigma^2}\)、\(s=\sqrt{s^2}\)- 分散は「2乗の単位」になる(例:cm²)ため、元の単位(cm)に戻したいとき標準偏差を使う。
使いどころ
よくある注意点
- 外れ値(ハズレチ:極端に大きい/小さい値)の影響を受けやすい(2乗するため)
- 「母分散(Nで割る)」と「標本分散(n-1で割る)」を混同しやすい